# Reglas de asociación con Python
## 1. Introduccion
<h3>1.1. Presentacion</h3>
<p>Los algoritmos de reglas de asociación tienen como objetivo encontrar relaciones dentro un conjunto de transacciones, en concreto, items o atributos que tienden a ocurrir de forma conjunta. En este contexto, el término transacción hace referencia a cada grupo de eventos que están asociados de alguna forma.</p>
<p>A cada uno de los eventos o elementos que forman parte de una transacción se le conoce como item y a un conjunto de ellos, conjunto de items o itemset. Una transacción puede estar formada por uno o varios items, en el caso de ser varios, cada posible subconjunto de ellos es un itemset distinto. Por ejemplo, la transacción T = {A,B,C} está formada por 3 items (A, B y C) y sus posibles itemsets son: {A,B,C}, {A,B}, {B,C}, {A,C}, {A}, {B} y {C}.</p>
<p> Una regla de asociación se define como una implicación del tipo “si X entonces Y” (X ==> Y), donde X e Y son itemsets o items individuales. El lado izquierdo de la regla recibe el nombre de antecedente y el lado derecho el nombre de consecuente</p>
<p> Apriori fue uno de los primeros algoritmos desarrollados para la búsqueda de reglas de asociación y sigue siendo uno de los más empleados, tiene dos etapas: Identificar todos los itemsets que ocurren con una frecuencia por encima de un determinado límite, para luego convertir esos itemsets frecuentes en reglas de asociación.</p>
<p>Basado en la informacion presentada en el sitio: <a href="https://www.cienciadedatos.net/documentos/43_reglas_de_asociacion">Ciencia de Datos: </a></p>
<h3>1.2. Principales Indicadores</h3>
<h4>Soporte:</h4>
<p>El soporte del item o itemset X es el número de transacciones que contienen X dividido entre el total de transacciones.</p>
<h4>Confianza:</h4>
<p>La confianza se interpreta como la probabilidad P(Y|X), es decir, la probabilidad de que una transacción que contiene los items de X, también contenga los items de Y (o bien la probabilidad que ocurra Y sabiendo que ocurrio X). </p>
<h4>Lift (o apalancamiento):</h4> 
<p>Expresa cuántas más veces es probable que se de la regla en comparación con la probabilidad que el consecuente se de solo, fuera de la regla. A mayor Lift, mayor fortaleza de la regla.</p>
<h3>1.3. Las reglas de asociacion en Python</h3>
<p>En python, el algoritmo Apriori se presenta en varias librerias. En este trabajo se uso el algoritmo apyori, que es una simple y sencilla implementacion del algoritmo en python.</p>
<p>Mas información acerca de Pyori en: <a href="https://pypi.org/project/apyori/">el sitio oficial de Apyory en Python</a>. Para instalarlo:</p>
%pip install apyori
<p>Como se mencionó en la introducción, Apriori utiliza items de una transaccion y no valores. Es por ello que solo se utilizan variables binarias.</p>
<p>En la regla de asociación con Apyory, la regla implica que si un conjunto de transacciones contiene los elementos de base (izquierda), entonces hay una alta probabilidad de que también contenga los elementos en el conjunto de elementos de la derecha.

### 1.4. Un ejemplo de Apyory

In [1]:
from apyori import apriori
# Definir los datos de transacciones de ejemplo
dataset = [['pan', 'leche', 'queso'],
           ['pan', 'leche', 'pañales', 'cerveza'],
           ['pan', 'queso', 'pañales', 'cerveza'],
           ['leche', 'pañales', 'cerveza'],
           ['pan', 'leche', 'queso', 'pañales', 'cerveza'],
           ['pan', 'leche', 'pañales', 'cerveza']]

# Generar los conjuntos de elementos frecuentes con el algoritmo Apriori
results = list(apriori(dataset, min_support=0.3, min_confidence=0.7))

In [2]:
# Mostrar los conjuntos de elementos frecuentes y todas las reglas de asociación
i=1
for itemset in results:
    print("Conjunto de elementos frecuentes:")
    print(list(itemset.items))
    print("Soporte: ", itemset.support)
    print("Reglas de asociación:")
    print(i)
    for rule in itemset.ordered_statistics:
        print(list(rule.items_base), " ==> ", list(rule.items_add), "(Confianza: ", rule.confidence, "Apalancamiento: ", rule.lift,")")
    i=i+1

Conjunto de elementos frecuentes:
['cerveza']
Soporte:  0.8333333333333334
Reglas de asociación:
1
[]  ==>  ['cerveza'] (Confianza:  0.8333333333333334 Apalancamiento:  1.0 )
Conjunto de elementos frecuentes:
['leche']
Soporte:  0.8333333333333334
Reglas de asociación:
2
[]  ==>  ['leche'] (Confianza:  0.8333333333333334 Apalancamiento:  1.0 )
Conjunto de elementos frecuentes:
['pan']
Soporte:  0.8333333333333334
Reglas de asociación:
3
[]  ==>  ['pan'] (Confianza:  0.8333333333333334 Apalancamiento:  1.0 )
Conjunto de elementos frecuentes:
['pañales']
Soporte:  0.8333333333333334
Reglas de asociación:
4
[]  ==>  ['pañales'] (Confianza:  0.8333333333333334 Apalancamiento:  1.0 )
Conjunto de elementos frecuentes:
['cerveza', 'leche']
Soporte:  0.6666666666666666
Reglas de asociación:
5
['cerveza']  ==>  ['leche'] (Confianza:  0.7999999999999999 Apalancamiento:  0.9599999999999999 )
['leche']  ==>  ['cerveza'] (Confianza:  0.7999999999999999 Apalancamiento:  0.9599999999999999 )
Conjunto

In [3]:
# Trataremos a Results como DataFrame Pandas
import pandas as pd
res=pd.DataFrame(results)
res

Unnamed: 0,items,support,ordered_statistics
0,(cerveza),0.833333,"[((), (cerveza), 0.8333333333333334, 1.0)]"
1,(leche),0.833333,"[((), (leche), 0.8333333333333334, 1.0)]"
2,(pan),0.833333,"[((), (pan), 0.8333333333333334, 1.0)]"
3,(pañales),0.833333,"[((), (pañales), 0.8333333333333334, 1.0)]"
4,"(cerveza, leche)",0.666667,"[((cerveza), (leche), 0.7999999999999999, 0.95..."
5,"(pan, cerveza)",0.666667,"[((cerveza), (pan), 0.7999999999999999, 0.9599..."
6,"(pañales, cerveza)",0.833333,"[((), (pañales, cerveza), 0.8333333333333334, ..."
7,"(pan, leche)",0.666667,"[((leche), (pan), 0.7999999999999999, 0.959999..."
8,"(pañales, leche)",0.666667,"[((leche), (pañales), 0.7999999999999999, 0.95..."
9,"(pan, pañales)",0.666667,"[((pan), (pañales), 0.7999999999999999, 0.9599..."


In [8]:
# Analizaremos el Resultado nro 20
a=res.iloc[20,2]
long_a=len(a)
# print(long_a)
# Navegacion del resultado (y armado de reglas)
longitud=len(list(a))
soporte=round(res.iloc[20,1],2)
for i in range (long_a):
    print("combi ",i)
    antecedente=list(a[i][0])
    consecuente=list(a[i][1])
    confiance=(a[i][2])
    lift=(a[i][3])
    regla=str(antecedente)+"==>"+str(consecuente)+"(Soporte: "+str(soporte)+", Confianza: "+str(confiance)+", Apalancamiento: "+str(lift)
    print(regla)

combi  0
['queso', 'cerveza']==>['pan', 'pañales'](Soporte: 0.33, Confianza: 1.0, Apalancamiento: 1.5
combi  1
['pañales', 'queso']==>['pan', 'cerveza'](Soporte: 0.33, Confianza: 1.0, Apalancamiento: 1.5
combi  2
['pan', 'cerveza', 'queso']==>['pañales'](Soporte: 0.33, Confianza: 1.0, Apalancamiento: 1.2
combi  3
['pañales', 'cerveza', 'queso']==>['pan'](Soporte: 0.33, Confianza: 1.0, Apalancamiento: 1.2
combi  4
['pan', 'queso', 'pañales']==>['cerveza'](Soporte: 0.33, Confianza: 1.0, Apalancamiento: 1.2


In [17]:
# RESULTADOS
# Variable objetivo:
consecuente_buscado="leche"

# Armado de DataFrame con todos los resultados
df_res = pd.DataFrame(columns=['id_set', 'item_set', 'combi', 'antecedente', 'consecuente', 'soporte', 'confianza', 'lift'])
cant_itemsets = len(res)
numReg = 0

for i in range(cant_itemsets):
    setId = i
    itemSet = list(res.iloc[i, 0])
    unResultado = res.iloc[i, 2]
    cant_combis = len(unResultado)
    soporte = round(res.iloc[i, 1], 2)
    
    for j in range(cant_combis):
        combi = j
        numReg += 1
        antecedente = list(unResultado[j][0])
        consecuente = list(unResultado[j][1])
        confianza = unResultado[j][2]
        lift = unResultado[j][3]
        registro = [setId, itemSet, combi, antecedente, consecuente, soporte, confianza, lift]
        df_res.loc[numReg] = registro

# Filtrar resultados para el consecuente buscado
df_filtrado = df_res[df_res['consecuente'].apply(lambda x: consecuente_buscado in x and len(x) == 1)]

nombreArchivo = "2_reglas_asoc_" + str(consecuente_buscado) + ".txt"
archivo = open(nombreArchivo, 'a')


for i in range(len(df_filtrado)):
    antecedente = df_filtrado.iloc[i, 3]
    consecuente = df_filtrado.iloc[i, 4]
    soporte = round(df_filtrado.iloc[i, 5], 2)
    confianza = round(df_filtrado.iloc[i, 6], 2)
    lift = round(df_filtrado.iloc[i, 7], 2)
    
    regla = f"{antecedente} ==> ['{consecuente_buscado}'] (Soporte={soporte} - Confianza={confianza} - Lift={lift})\n"
    archivo.write(regla)
    print(regla)
archivo.close()

[] ==> ['leche'] (Soporte=0.83 - Confianza=0.83 - Lift=1.0)

['cerveza'] ==> ['leche'] (Soporte=0.67 - Confianza=0.8 - Lift=0.96)

['pan'] ==> ['leche'] (Soporte=0.67 - Confianza=0.8 - Lift=0.96)

['pañales'] ==> ['leche'] (Soporte=0.67 - Confianza=0.8 - Lift=0.96)

['pan', 'cerveza'] ==> ['leche'] (Soporte=0.5 - Confianza=0.75 - Lift=0.9)

['pañales', 'cerveza'] ==> ['leche'] (Soporte=0.67 - Confianza=0.8 - Lift=0.96)

['pan', 'pañales'] ==> ['leche'] (Soporte=0.5 - Confianza=0.75 - Lift=0.9)

['pan', 'cerveza', 'pañales'] ==> ['leche'] (Soporte=0.5 - Confianza=0.75 - Lift=0.9)

