# Charles Book Club

## Taller en clase
### Realizado por: Sara Peña y Frank Hernadez

In [25]:
# Importar las bibliotecas necesarias
import pandas as pd
import numpy as np
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules
import matplotlib.pyplot as plt
import seaborn as sns

In [26]:
#Cargar los datos
df = pd.read_csv('CBC.csv')

#Mostrar las primeras filas del dataset
print("Primeras filas del dataset:")
print(df.head())

Primeras filas del dataset:
   Seq#  ID#  Gender    M   R  F  FirstPurch  ChildBks  YouthBks  CookBks  \
0     1   25       1  297  14  2          22         0         1        1   
1     2   29       0  128   8  2          10         0         0        0   
2     3   46       1  138  22  7          56         2         1        2   
3     4   47       1  228   2  1           2         0         0        0   
4     5   51       1  257  10  1          10         0         0        0   

   DoItYBks  RefBks  ArtBks  GeoBks  ItalCook  ItalAtlas  ItalArt  Florence  \
0         0       0       0       0         0          0        0         0   
1         0       0       0       0         0          0        0         0   
2         0       1       0       1         1          0        0         0   
3         0       0       0       0         0          0        0         0   
4         0       0       0       0         0          0        0         0   

   Related purchase  
0           

In [27]:
# Preparar los datos para el algoritmo Apriori
# Seleccionar solo las columnas de libros
book_columns = ['ChildBks', 'YouthBks', 'CookBks', 'DoItYBks', 'RefBks', 
                'ArtBks', 'GeoBks', 'ItalCook', 'ItalAtlas', 'ItalArt', 'Florence']
# Convertir los datos a formato binario (0 y 1)
df_binary = df[book_columns].copy()
df_binary = df_binary.astype(bool).astype(int)
# Mostrar las primeras filas del dataset binario
print("\nDataset binario para análisis de reglas de asociación:")
print(df_binary.head())


Dataset binario para análisis de reglas de asociación:
   ChildBks  YouthBks  CookBks  DoItYBks  RefBks  ArtBks  GeoBks  ItalCook  \
0         0         1        1         0       0       0       0         0   
1         0         0        0         0       0       0       0         0   
2         1         1        1         0       1       0       1         1   
3         0         0        0         0       0       0       0         0   
4         0         0        0         0       0       0       0         0   

   ItalAtlas  ItalArt  Florence  
0          0        0         0  
1          0        0         0  
2          0        0         0  
3          0        0         0  
4          0        0         0  


In [28]:
# Aplicar el algoritmo Apriori con soporte mínimo de 0.05
frequent_itemsets = apriori(df_binary, min_support=0.05, use_colnames=True)

# Mostrar los itemsets frecuentes
print("\nITEMSETS FRECUENTES")
print("\n" + "="*100)
print("SOPORTE |                       CONJUNTO DE PRODUCTOS")
print("-"*100)
print(frequent_itemsets.to_string())
print("="*100)


ITEMSETS FRECUENTES

SOPORTE |                       CONJUNTO DE PRODUCTOS
----------------------------------------------------------------------------------------------------
    support                                 itemsets
0     0.394                               (ChildBks)
1     0.238                               (YouthBks)
2     0.415                                (CookBks)
3     0.255                               (DoItYBks)
4     0.205                                 (RefBks)
5     0.223                                 (ArtBks)
6     0.267                                 (GeoBks)
7     0.107                               (ItalCook)
8     0.085                               (Florence)
9     0.147                     (ChildBks, YouthBks)
10    0.242                      (ChildBks, CookBks)
11    0.162                     (ChildBks, DoItYBks)
12    0.128                       (ChildBks, RefBks)
13    0.105                       (ChildBks, ArtBks)
14    0.146                 



In [29]:
# Generar reglas de asociación con confianza mínima de 0.5
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.5)

# Mostrar las reglas de asociación
# Configurar opciones de visualización de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.float_format', lambda x: '%.3f' % x)
# Mostrar las reglas de asociación en formato tabla
print("\nREGLAS DE ASOCIACIÓN")
print("\n" + "="*120)
print("ANTECEDENTES (SI COMPRA) -> CONSECUENTES (ENTONCES COMPRA) | SOPORTE | CONFIANZA | LIFT")
print("-"*120)
print(rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']].to_string())
print("="*120)



REGLAS DE ASOCIACIÓN

ANTECEDENTES (SI COMPRA) -> CONSECUENTES (ENTONCES COMPRA) | SOPORTE | CONFIANZA | LIFT
------------------------------------------------------------------------------------------------------------------------
                       antecedents          consequents  support  confidence  lift
0                       (YouthBks)           (ChildBks)    0.147       0.619 1.571
1                       (ChildBks)            (CookBks)    0.242       0.614 1.478
2                        (CookBks)           (ChildBks)    0.242       0.582 1.478
3                       (DoItYBks)           (ChildBks)    0.162       0.634 1.609
4                         (RefBks)           (ChildBks)    0.128       0.626 1.590
5                         (GeoBks)           (ChildBks)    0.146       0.548 1.392
6                       (ItalCook)           (ChildBks)    0.060       0.560 1.423
7                       (YouthBks)            (CookBks)    0.161       0.676 1.626
8                    

In [30]:
# Identificar reglas inútiles o duplicadas
# Una regla es inútil si lift <= 1 (no hay asociación positiva)
useless_rules = rules[rules['lift'] <= 1]
print("\nReglas inútiles (lift <= 1):")
print(useless_rules[['antecedents', 'consequents', 'lift']])


Reglas inútiles (lift <= 1):
Empty DataFrame
Columns: [antecedents, consequents, lift]
Index: []


In [31]:
# Identificar reglas duplicadas (mismo antecedente y consecuente)
duplicate_rules = rules[rules.duplicated(['antecedents', 'consequents'], keep=False)]
print("\nReglas duplicadas:")
print(duplicate_rules[['antecedents', 'consequents', 'lift']])


Reglas duplicadas:
Empty DataFrame
Columns: [antecedents, consequents, lift]
Index: []


In [32]:
# Filtrar reglas útiles (lift > 1)
useful_rules = rules[rules['lift'] > 1]

# Ordenar por lift para ver las reglas más fuertes
useful_rules = useful_rules.sort_values('lift', ascending=False)

print("\nReglas útiles ordenadas por lift:")
print("\n" + "="*120)
print("ANTECEDENTES (SI COMPRA) -> CONSECUENTES (ENTONCES COMPRA) | SOPORTE | CONFIANZA | LIFT")
print("-"*120)
print(useful_rules[['antecedents', 'consequents', 'support', 'confidence', 'lift']])
print("="*120)



Reglas útiles ordenadas por lift:

ANTECEDENTES (SI COMPRA) -> CONSECUENTES (ENTONCES COMPRA) | SOPORTE | CONFIANZA | LIFT
------------------------------------------------------------------------------------------------------------------------
                       antecedents          consequents  support  confidence  \
64              (RefBks, YouthBks)  (ChildBks, CookBks)    0.055       0.680   
73              (RefBks, DoItYBks)  (ChildBks, CookBks)    0.061       0.662   
60            (YouthBks, DoItYBks)  (ChildBks, CookBks)    0.067       0.649   
80                (GeoBks, RefBks)  (ChildBks, CookBks)    0.050       0.615   
69              (GeoBks, YouthBks)  (ChildBks, CookBks)    0.063       0.605   
77              (GeoBks, DoItYBks)  (ChildBks, CookBks)    0.060       0.599   
66     (GeoBks, ChildBks, CookBks)           (YouthBks)    0.063       0.578   
71     (ChildBks, RefBks, CookBks)           (DoItYBks)    0.061       0.592   
48              (GeoBks, DoItYBks) 

In [33]:
# Guardar las reglas útiles en un archivo CSV
useful_rules.to_csv('reglas_utiles.csv', index=False)

print("\nLas reglas útiles han sido guardadas en 'reglas_utiles.csv'") 


Las reglas útiles han sido guardadas en 'reglas_utiles.csv'


# Conclusiones 
## Acciones de negocio a partir de reglas últiles

Según el analisis plateado anteriormente no se encontraron reglas inútiles (lift <=1). Es decir, que todas las reglas mostraron asociaciones positivas. Por eso se proponen las siguientes acciones de negocio:

1. Estrategias de Cross-Selling:

* Todas las reglas generadas tienen un lift mayor a 1, lo que indica asociaciones positivas entre los productos.

* Las reglas con mayor lift representan las conexiones más fuertes, por lo que deberían priorizarse en las recomendaciones.

2. Ubicación en la Tienda:

* Los libros que suelen comprarse juntos deberían ubicarse en secciones cercanas dentro de la tienda.

* Es recomendable organizar secciones temáticas basadas en las asociaciones más fuertes.

* También se puede crear una sección específica que agrupe libros relacionados entre sí.

3. Paquetes y Promociones:

* Diseñar paquetes de libros aprovechando las reglas con mayor lift.

* Ofrecer descuentos especiales al comprar libros relacionados.

* Implementar programas de fidelización que incentiven la compra conjunta de libros afines.

4. Recomendaciones Personalizadas:

* Incorporar un sistema de recomendaciones en la tienda online.

* Mostrar sugerencias como “Clientes que compraron X también compraron Y”, basadas en las asociaciones más relevantes.

* Personalizar la experiencia de compra con recomendaciones adaptadas a los intereses del cliente.

5. Estrategias de Marketing:

* Crear campañas que destaquen las combinaciones de libros más populares.

* Generar contenido que explique por qué ciertos libros están relacionados.

* Utilizar las reglas de asociación para segmentar mejor el mercado y personalizar la comunicación.

6. Gestión de Inventario:

* Asegurar un stock adecuado de libros que suelen comprarse juntos.

* Planificar las compras considerando las asociaciones más fuertes.

* Ajustar los niveles de inventario en función de las reglas identificadas.

7. Desarrollo de Producto:

* Explorar la creación de nuevas colecciones basadas en las asociaciones detectadas.

* Desarrollar materiales complementarios para libros que frecuentemente se venden en conjunto.

* Considerar oportunidades de co-marketing con productos afines.

8. Análisis Continuo:

* Revisar periódicamente las reglas de asociación para detectar cambios en los patrones de compra.

* Ajustar las estrategias según las nuevas tendencias que se identifiquen.

* Medir el impacto de las acciones tomadas sobre las ventas y optimizar en consecuencia.