# S201 - Análisis de Afinidad

Documentación:

- [https://numpy.org/doc/stable/reference/generated/numpy.zeros.html#numpy.zeros](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html#numpy.zeros)
- [https://numpy.org/doc/stable/reference/random/index.html](https://numpy.org/doc/stable/reference/random/index.html)

Un análisis de afinidad determinará cuándo eventos similares ocurren bajo una probabilidad. A esa probabilidad le llamaremos la confianza y el número de repeticiones que sustenten esa probabilidad será llamada el soporte (el respaldo).

Algunas aplicaciones de este tipo de análisis son:

* Detección de fraude
* Segmentación de clientes
* Optimización de software
* Recomendaciones de productos

## Construir un `dataset` para simular la compra de productos bajo ciertas probabilidades

In [None]:
import random

# Diseñar un dataset de ejemplo

import numpy as np

# Muestra: [LECHE, HUEVO, PAN, FRUTA, DULCE]
#          1 - compró, 0 - no compró
# Ejemplo: [1, 0, 0, 1, 1]
#          Compró: LECHE, FRUTA, DULCE
#          No compró: HUEVO, PAN

dataset = np.array(
    [
        [1, 0, 0, 1, 1], # 1
        [0, 1, 1, 1, 0], # 2
        [0, 0, 0, 0, 1], # 3
        [1, 0, 0, 1, 0], # 4
        [1, 1, 0, 0, 0], # 5
    ]
)

Generar un dataset con 100 muestras aleatorias con probabilidades de compra

In [7]:
import numpy as np

shape = (100, 5) # 2 dim: 100 x 5

dataset = np.zeros(shape).astype(int)

dataset

array([[0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0,

In [9]:
np.random.random() # Aleatorio: [0, 1)

0.39356612372844935

In [18]:
np.random.random() < 0.25, np.random.random() < 0.25, np.random.random() < 0.25, np.random.random() < 0.25

(False, True, False, False)

In [21]:
for i in range(0, 100):
    # [LECHE, HUEVO, PAN, FRUTA, DULCE]
    sample = [0, 0, 0, 0, 0]

    # Si una probabilidad < 1/3
    # entonces suponemos que esta muestra
    # compró leche
    if np.random.random() < 0.333:
        sample[0] = 1 # Leche activo

        # Dado que ya compró leche

        # Probabilidad de comprar huevo
        # dado que compró leche
        if np.random.random() < 0.5:
            sample[1] = 1 # Huevo activo

            # Dado que ya compró leche y huevo
            if np.random.random() < 0.2:
                sample[2] = 1 # Pan activo
                # Ya compró pan
            else:
                # No compró pan
                # Probabilidad de comprar fruta si compró leche y huevo
                # y no compró pan es del 50%
                if np.random.random() < 0.5:
                    sample[3] = 1 # Fruta activo

    # Probabilidad de comprar fruta es del 60%
    if np.random.random() < 0.6:
        sample[3] = 1 # Fruta activo
    else:
        if np.random.random() < 0.8:
            sample[4] = 1 # Fruta activo

    #print(sample)

    # Para la fila i:
    dataset[i] = sample

dataset

array([[1, 0, 0, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [1, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [1, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 1, 0],
       [1, 0, 0, 0, 1],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [1, 0, 0, 0, 1],
       [1, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [1, 1, 0, 1, 0],
       [1, 1, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [1, 1, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0,

In [22]:
dataset

array([[1, 0, 0, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [1, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [1, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 1, 0],
       [1, 0, 0, 0, 1],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [1, 0, 0, 0, 1],
       [1, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 0, 1],
       [1, 1, 0, 1, 0],
       [1, 1, 0, 1, 0],
       [0, 0, 0, 1, 0],
       [1, 1, 0, 1, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0,

El análisis de afinidad se basa en premisas y conclusiones. Una premisa es una verdad que se usa para contar conclusiones a partir de esa verdad.

Por ejemplo, la premisa es: COMPRÓ LECHE, entonces la conclusión podría ser: COMPRÓ HUEVO.

Las combinaciones que tendríamos para las premisas y conclusiones directas (no negadas) serían:

1. LECHE -> HUEVO (?, ?)
2. LECHE -> PAN (?, ?)
3. LECHE -> FRUTAS (?, ?)
4. LECHE -> DULCES (?, ?)
5. HUEVO -> LECHE (?, ?)
6. HUEVO -> PAN (?, ?)
7. HUEVO -> FRUTAS (?, ?)
8. HUEVO -> DULCES (?, ?)
9. PAN -> LECHE (?, ?)
10. PAN -> HUEVO (?, ?)
11. PAN -> FRUTAS (?, ?)
12. PAN -> DULCES (?, ?)
13. FRUTAS -> LECHE (?, ?)
14. FRUTAS -> HUEVO (?, ?)
15. FRUTAS -> PAN (?, ?)
16. FRUTAS -> DULCES (?, ?)
17. DULCES -> LECHE (?, ?)
18. DULCES -> HUEVO (?, ?)
19. DULCES -> PAN (?, ?)
20. DULCES -> FRUTAS (?, ?)

Para `n` premisas, tendríamos en la forma simple `n * (n - 1)` posibles casos.

Y también podríamos pensar en las conclusiones y premisas negadas, por ejemplo:

* NO LECHE -> PAN
* FRUTAS -> NO DULCES

Entonces, vamos a generar un algoritmo que lance todas las posibles premisas y conclusiones, para encontrar (ordenar) aquellas que tengan mayor confianza (es decir, tengan mayor probabilidad) y tengan también el mayor soporte (es decir, aparezcan más veces).

En un análisis más amplio, podríamos formar premisas y conclusiones más complejas, pero requeriría tener más cantidad datos (mayor volumen para mayor credibilidad).

* LECHE Y NO-HUEVO -> FRUTAS
* LECHE O HUEVO -> PAN Y DULCES

En ejemplo diferente, podríamos tener las entregas a tiempo de personas en sus proyectos:

| PERSONA ID | PROYECTO 1 | PROYECTO 2 | PROYECTO 3 | PROYECTO 4 | PROYECTO 5 | PROYECTO 6 |
|------------|------------|------------|------------|------------|------------|------------|
| 123        | SI         | NO         | SI         | SI         | SI         | SI         |
| 456        | NO         | NO         | SI         | SI         | NO         | SI         |
| 765        | SI         | SI         | NO         | SI         | SI         | SI         |
| 234        | SI         | NO         | SI         | NO         | SI         | SI         |
| 444        | NO         | NO         | SI         | SI         | SI         | NO         |

* ENTREGÓ PROYECTO 1 Y PROYECTO 2 -> PROYECTO 3

## Lo siguiente es contar cuántas veces se repite una premisa que llega a un conclusión, para determinar la confianza y el soporte

In [27]:
import pandas as pd

dataset = pd.DataFrame(dataset, columns=["LECHE", "HUEVO", "PAN", "FRUTAS", "DULCES"])

dataset

Unnamed: 0,LECHE,HUEVO,PAN,FRUTAS,DULCES
0,1,0,0,0,0
1,0,0,0,1,0
2,0,0,0,0,0
3,0,0,0,1,0
4,0,0,0,1,0
...,...,...,...,...,...
95,0,0,0,1,0
96,0,0,0,1,0
97,1,1,0,1,0
98,0,0,0,1,0


In [26]:
dataset.query(" LECHE == 1 ").count()

LECHE     31
HUEVO     31
PAN       31
FRUTAS    31
DULCES    31
dtype: int64

In [29]:
dataset[ dataset["LECHE"] == 1 ]

Unnamed: 0,LECHE,HUEVO,PAN,FRUTAS,DULCES
0,1,0,0,0,0
6,1,0,0,1,0
19,1,0,0,1,0
26,1,0,0,0,1
31,1,0,0,0,1
32,1,0,0,1,0
36,1,1,0,1,0
37,1,1,0,1,0
39,1,1,0,1,0
45,1,0,0,0,1


In [31]:
dataset[ (dataset["LECHE"] == 1) & (dataset["HUEVO"] == 1) ]

Unnamed: 0,LECHE,HUEVO,PAN,FRUTAS,DULCES
36,1,1,0,1,0
37,1,1,0,1,0
39,1,1,0,1,0
46,1,1,0,1,1
53,1,1,0,1,0
58,1,1,0,1,0
59,1,1,0,1,0
63,1,1,0,1,0
81,1,1,0,1,0
82,1,1,0,1,0


In [32]:
dataset[ (dataset["FRUTAS"] == 1) & (dataset["DULCES"] == 0) ]

Unnamed: 0,LECHE,HUEVO,PAN,FRUTAS,DULCES
1,0,0,0,1,0
3,0,0,0,1,0
4,0,0,0,1,0
5,0,0,0,1,0
6,1,0,0,1,0
...,...,...,...,...,...
95,0,0,0,1,0
96,0,0,0,1,0
97,1,1,0,1,0
98,0,0,0,1,0


In [33]:
dataset[ (dataset["FRUTAS"] == 1) & (dataset["DULCES"] == 1) ]

Unnamed: 0,LECHE,HUEVO,PAN,FRUTAS,DULCES
46,1,1,0,1,1
91,1,1,0,1,1
93,1,1,0,1,1


In [38]:
dataset[ (dataset["FRUTAS"] == 1)].count()[0]

68

In [37]:
dataset[ (dataset["FRUTAS"] == 1) & (dataset["DULCES"] == 1) ].count()[0]

3

In [41]:
100 * 3/68, 68 # (CONFIANZA, SOPORTE)

(4.411764705882353, 68)

In [47]:
features = ["LECHE", "HUEVO", "PAN", "FRUTAS", "DULCES"]

for premise in features:
    # Contar cuántas veces ocurre la premisa
    premise_count = dataset[ (dataset[premise] == 1) ].count()[0]
    print("COMPRÓ {}: {} veces".format(premise, premise_count))
    for conclusion in features:
        if premise == conclusion:
            continue
        print("SI COMPRO {}, ENTONCES COMPRO {}".format(premise, conclusion))
        # Contar cuántas veces ocurre el evento (la regla, la hipótesis) [soporte]
        premise_to_conclusion_count = dataset[ (dataset[premise] == 1) & (dataset[conclusion] == 1) ].count()[0]

        support = premise_to_conclusion_count
        confidence = 100 * premise_to_conclusion_count / premise_count

        print("CONFIANZA: {:.1f}% SOPORTE: {} veces".format(confidence, support))


COMPRÓ LECHE: 31 veces
SI COMPRO LECHE, ENTONCES COMPRO HUEVO
CONFIANZA: 48.4% SOPORTE: 15 veces
SI COMPRO LECHE, ENTONCES COMPRO PAN
CONFIANZA: 3.2% SOPORTE: 1 veces
SI COMPRO LECHE, ENTONCES COMPRO FRUTAS
CONFIANZA: 87.1% SOPORTE: 27 veces
SI COMPRO LECHE, ENTONCES COMPRO DULCES
CONFIANZA: 19.4% SOPORTE: 6 veces
COMPRÓ HUEVO: 15 veces
SI COMPRO HUEVO, ENTONCES COMPRO LECHE
CONFIANZA: 100.0% SOPORTE: 15 veces
SI COMPRO HUEVO, ENTONCES COMPRO PAN
CONFIANZA: 6.7% SOPORTE: 1 veces
SI COMPRO HUEVO, ENTONCES COMPRO FRUTAS
CONFIANZA: 100.0% SOPORTE: 15 veces
SI COMPRO HUEVO, ENTONCES COMPRO DULCES
CONFIANZA: 20.0% SOPORTE: 3 veces
COMPRÓ PAN: 1 veces
SI COMPRO PAN, ENTONCES COMPRO LECHE
CONFIANZA: 100.0% SOPORTE: 1 veces
SI COMPRO PAN, ENTONCES COMPRO HUEVO
CONFIANZA: 100.0% SOPORTE: 1 veces
SI COMPRO PAN, ENTONCES COMPRO FRUTAS
CONFIANZA: 100.0% SOPORTE: 1 veces
SI COMPRO PAN, ENTONCES COMPRO DULCES
CONFIANZA: 0.0% SOPORTE: 0 veces
COMPRÓ FRUTAS: 68 veces
SI COMPRO FRUTAS, ENTONCES COMPRO 

In [48]:
print("Hola python 🐍")
print(dataset[:5])

Hola python 🐍
   LECHE  HUEVO  PAN  FRUTAS  DULCES
0      1      0    0       0       0
1      0      0    0       1       0
2      0      0    0       0       0
3      0      0    0       1       0
4      0      0    0       1       0


In [49]:
"Hola"

'Hola'

In [50]:
"Hola {}, tienes {} años".format("Pepe", 25)

'Hola Pepe, tienes 25 años'

In [51]:
print("Confianza {}%".format(67.52345))

Confianza 67.52345%


In [52]:
print("Confianza {:.1f}%".format(67.52345))

Confianza 67.5%


In [55]:
# Análisis de Afinidad (Algoritmo Apriori)
# Se basa en encontrar la confianza y soporte de premisas y conclusiones

results = pd.DataFrame(columns=["PREMISE", "CONCLUSION", "TOTAL", "CONFIDENCE", "SUPPORT"])

features = ["LECHE", "HUEVO", "PAN", "FRUTAS", "DULCES"]

for premise in features:
    total = dataset[ (dataset[premise] == 1) ].count()[0]
    for conclusion in features:
        if premise == conclusion:
            continue
        support = dataset[ (dataset[premise] == 1) & (dataset[conclusion] == 1) ].count()[0]
        confidence = support / total

        results = pd.concat([results, pd.DataFrame({
            "PREMISE": [premise],
            "CONCLUSION": [conclusion],
            "TOTAL": [total],
            "SUPPORT": [support],
            "CONFIDENCE": [confidence]
        })])

results

Unnamed: 0,PREMISE,CONCLUSION,TOTAL,CONFIDENCE,SUPPORT
0,LECHE,HUEVO,31,0.483871,15
0,LECHE,PAN,31,0.032258,1
0,LECHE,FRUTAS,31,0.870968,27
0,LECHE,DULCES,31,0.193548,6
0,HUEVO,LECHE,15,1.0,15
0,HUEVO,PAN,15,0.066667,1
0,HUEVO,FRUTAS,15,1.0,15
0,HUEVO,DULCES,15,0.2,3
0,PAN,LECHE,1,1.0,1
0,PAN,HUEVO,1,1.0,1


## Ejercicio E201 - Encontrar la confianza y soporte que respalde la siguiente hipótesis planteada

    SI COMPRO LECHE Y COMPRO DULCES, ENTONCES NO COMPRÓ HUEVO

1. Contar cuántas veces ocurre la premisa (comprar leche y dulces) `-> total`
2. Contar cuántas veces ocurre la premisa y la conclusión (comprar leche y dulces y no comprar huevo) `-> soporte`
3. Calcular la confianza como el soporte entre el total `-> confianza`

In [58]:
total = dataset[ (dataset["LECHE"] == 1) & (dataset["DULCES"] == 1) ].count()[0]

total

6

In [61]:
support = dataset[ (dataset["LECHE"] == 1) & (dataset["DULCES"] == 1) & (dataset["HUEVO"] == 0) ].count()[0]

support

3

In [64]:
confidence = support / total

confidence * 100

50.0

## Conclusiones

El análisis de afinidad se basa en encontrar la confianza y soporte que respalden una hipótesis.

La hipótesis se conforma de una premisa y una conclusión.

La premisa puede contener una o más sentencias lógicas que formarán un espacio. Este espacio representa cuántas veces ocurre un evento (conteo `total`). En otras palabras contar cuántas veces la premisa es verdadera.

Las conclusiones un subespacio del espacio dónde ocurre la premisa, es decir, si la premisa ocurre, entonces la conclusión lo hará. El número de veces que ocurre este evento se considera el soporte (conteo `support`). En otras palabras contar cuántas conclusiones son ciertas, dado que la premisa es cierta.

La confianza es la razón entre el número veces que ocurre la conclusión, dado que ocurrió la premisa (división `confidence`). En otras palabras, dividir el soporte entre el total.

> Ejemplo de una base de datos sobre seguimientos de proyectos

* LÍDER ID - Número único (identificador)
* TAMAÑO PROYECTO - Número (funcionalidades)
* DURACIÓN - Número (días desde asignación a finalización)
* METODOLOGÍA - Categoría (ágil, cascada, etc)
* TIPO PROYECTO - Categoría (desarrollo nuevo, mantenimiento, interno, etc)
* ESFUERZO - Número (horas hombre)
* LENGUAJE - Categoría (c#, java, etc)
* TIPO DE ARQUITECTURA - Categoría (capas, cliente-servidor, etc)
* TIEMPO ESPERA - Número (días desde inicio a fin)

    SI LÍDER TIENE MÁS 3 PROYECTOS, ENTONCES ESFUERZO MAYOR A PROMEDIO

Conteo manual

    total = 0
    soporte = 0

    for row in dataset.items():
        lider_id = row["LIDER"]
        esfuerzo = row["ESFUERZO"]

        num_proyectos = dataset[ (dataset["LIDER"] == lider_id) ].count()[0]
        esfuerzo_promedio = dataset["ESUERZO"].mean()

        if num_proyectos >= 3:
            total += 1

            if esfuerzo >= esfuerzo_promedio:
                soporte += 1

    confianza = 100 * soporte / total

    print("SI el líder tiene más de 3 proyectos, entonces el esfuerzo será mayor al promedio")
    print("TOTAL: {} CONFIANZA: {:.1f}% SOPORTE: {}".format(total, confianza, soporte))

Otras hipótesis:

* SI LENGUAJE ES C#, ENTONCES ESFUERZO_PROMEDIO(C#) > ESFUERZO_PROMEDIO(JAVA)
* SI LENGUAJE ES JAVA, ENTONCES ESFUERZO_PROMEDIO(JAVA) > ESFUERZO_PROMEDIO(C++)
* SI LENGUAJE ES PYTHON, ENTONCES ESFUERZO_PROMEDIO(PYTHON) > ESFUERZO_PROMEDIO(C#)
* SI LENGUAJE ES C#, ENTONCES ESFUERZO_PROMEDIO(C#) > ESFUERZO_PROMEDIO(PYTHON)
* SI LENGUAJE ES C++, ENTONCES ESFUERZO_PROMEDIO(C#) > ESFUERZO_PROMEDIO(JAVA)
* SI LENGUAJE ES C#, ENTONCES TIMPO_ESPERA > Q3_TIEMPO_ESPERA (mayor al 75% de espera de los proyectos)