## Reglas de Asociación

### 1) Descubrimiento de asociaciones

- Búsqueda de patrones frecuentes, asociaciones, correlaciones o estructuras causales entre conjuntos de artículos u objetos (datos) a partir de bases de datos transaccionales, relacionales y conjuntos de datos.


- Búsqueda de secuencias o patrones temporales


- Aplicaciones:
    - Análisis de carritos de compra
    - Diseño de catálogos,...
    - ¿Qué hay en el carrito? corbatas
    - ¿Cómo motivar al cliente a comprar los artículos que es probable que le gusten?


### 2) Reglas de asociación

- Objetivo de los algoritmos de extracción de reglas de asociación:
    - Dada una **base de datos de transacciones**, donde cada transacción es una lista de artículos (comprados por un cliente en una misma visita)
        
    - Encontrar todas las reglas que corelacionen la presencia de un conjunto de artículos con otro conjunto de artículos.
    
    - Ejemplo : 89% de la gente que compra neumáticos y accesorios para el automóvil, también requiere servicios.
    
    
La idea es obtener reglas de tipo:

- Antecedente => Consecuente [soporte, confianza]
- Compra (x , pañales) => compra(x, cerveza) [0.5% , 60%]


- Encontrar todas las reglas X ^ Y => Z con un mínimo de confianza y de soporte

- Soporte (s): La probabilidad de que una transacción cotenga {X ^ Y ^ Z}

- Confianza (c): Probabilidad condicional P( Z | X ^ Y )


### El soporte habitual podría ir entre el 5 y 10 %

Con un **Soporte**:

- Alto => habrá pocas reglas que ocurren con frecuencia (obviedades)
- Bajo => habrá muchas reglas que ocurren raramente ()


Con una **Confianza:**

- Alta => pocas reglas, pero todas **casi ciertas logicamente**

- Baja => muchas reglas, pero muchas de ellas muy **inciertas**

Un ejemplo de **Soporte** sería, dentro de todas las transacciones, el % frecuencia de la familia Corbata

y de **Confianza** sería, dentro del número de transacciones con Corbata, el % de otra Familia (Camisa p.e.)

#### Valores típicos

**Soporte:** 2-10 %

**Confianza** 70-90%

**Lift** hacer caso al lift > 1
 
### 3) El algoritmo APRIORI

- Ecuentra las asociaciones más frecuentes 
- Itera sobre la base de datos hasta que las asociaciones obtenidas no tienen el soporte mínimo.
- Método simple pero robusto
- Salida intuitiva


- Requisitos:
  + No necesita fijar los atributos de los lados derecho (consecuente) e izquierdo (antecedente) de las reglas, pues se generan de manera automática
  + Existen variedades para tratar todo tipo de datos
  + Especificar mínimo soporte
  + Especificar máximo número de reglas.
  
El algortimo busca iterativamente conjuntos frecuentes con cardinalidad 1 hasta k (k-conjunto), y después **usa los conjuntos frecuentes para crear reglas de asociación.**

En el paso clave del descubrimiento de **conjuntos frecuentes**, se basa en el principio "a priori"

- Cualquier subconjunto de un conjunto de artículos frecuente debe ser frecuente 
  
  Ejemplo: si {A B} es un conjunto frecuente, entonces tanto {A} como {B} deberían ser frecuentes
  
Y por el contrario si existe algún conjunto "infrecuente", entonces no hay necesidad de generar sus superconjuntos

In [14]:
import pandas as pd
import pyodbc

#pyodbc
server = 'tcp:190.27.1.13\BI'
database = 'dbHighLife'
username = 'srodriguez'
password = 'Zmadgfv1'

cnxn = pyodbc.connect('DRIVER={ODBC Driver 13 for SQL Server};SERVER='+server+';DATABASE='+database+';UID='+username+';PWD='+ password)
cursor = cnxn.cursor()


consulta = '''  select Familias from Apriori_HL where Familias <> ''  '''

resultado = []


registros = cursor.execute(consulta).fetchall()




In [16]:
for x in registros:
    resultado.append(x.Familias.split(","))

In [17]:
resultado

[['CAMISA V'],
 ['PANTALON V'],
 ['CAMISA V'],
 ['TRAJE'],
 ['MONO'],
 ['CAMISA V'],
 ['BLAZER', 'SACO SPORT'],
 ['SACO SPORT'],
 ['CALZADO', 'CAMISA V', 'PANUELO', 'TRAJE'],
 ['PANTALON V'],
 ['CORBATA'],
 ['PULSERA'],
 ['SACO SPORT'],
 ['CALCETIN'],
 ['CALCETIN', 'CORBATA'],
 ['CALCETIN', 'CAMISA V', 'CORBATA', 'TRAJE TRIO'],
 ['ABRIGO', 'CHAMARRA'],
 ['MONO'],
 ['PANTALON V', 'TRAJE'],
 ['PANTALON S'],
 ['MONO', 'TRAJE TRIO'],
 ['CAMISA V'],
 ['CHALECO'],
 ['CORBATA'],
 ['MONO'],
 ['CAMISA V'],
 ['TRAJE'],
 ['TRAJE TRIO'],
 ['PANTALON S'],
 ['MANCUERNIL', 'TRAJE'],
 ['CORBATA'],
 ['BLAZER', 'PANTALON V', 'SACO SPORT'],
 ['CORBATA'],
 ['CALCETIN', 'CINTURON', 'CORBATA'],
 ['MONO', 'TRAJE'],
 ['CAMISA SP', 'CAMISA V'],
 ['CORBATA'],
 ['CAMISA V', 'SACO SPORT'],
 ['CAMISA V', 'CORBATA', 'TRAJE'],
 ['CHALECO'],
 ['CAMISA V', 'CORBATA', 'TRAJE'],
 ['CHAMARRA'],
 ['PANUELO'],
 ['TRAJE'],
 ['PANTS'],
 ['ABRIGO'],
 ['CALCETIN',
  'CALZADO',
  'CAMISA V',
  'CINTURON',
  'FAJAYMONO',
  'MANC

In [18]:
import numpy as np
import matplotlib.pyplot as plt
from apyori import apriori



In [65]:
reglas_asociacion = apriori(resultado, min_support=0.02,min_confidence=0.20, min_lift=1,min_length=2)

resultados_asociacion=list(reglas_asociacion)

In [66]:
print(len(resultados_asociacion))

8


In [72]:
# EL resultado tiene que tener más de 1 elemento, caso contrario descartar
len(resultados_asociacion[2][0])

2

In [83]:
reg=6
print(resultados_asociacion[reg],'\n\n')

print(resultados_asociacion[reg][0],'\n')
print(resultados_asociacion[reg][1],'\n')
print(resultados_asociacion[reg][2][0][0],'\n')

RelationRecord(items=frozenset({'PANTALON V', 'SACO SPORT'}), support=0.026776074282012525, ordered_statistics=[OrderedStatistic(items_base=frozenset({'PANTALON V'}), items_add=frozenset({'SACO SPORT'}), confidence=0.28181818181818186, lift=1.8997088791848618)]) 


frozenset({'PANTALON V', 'SACO SPORT'}) 

0.026776074282012525 

frozenset({'PANTALON V'}) 



In [44]:
asoc=[]
for item in resultados_asociacion:
    pair = item[0]
    items= [z for z in pair ]
    print(items[0])

CAMISA V
TRAJE
CAMISA V
CAMISA V
CALZADO
CAMISA SP
CAMISA V
MANCUERNIL
PANTALON V
PANUELO
CAMISA V
CAMISA V
CAMISA V
CORBATA
PANTALON V
CAMISA V
PANTALON V
