## Extraer tablas de la seccion 1

Se importan las librerías generales que se utilizarían, además de los documentos CSV creados en el paso anterior

In [1]:
import pandas as pd
import numpy as np

#Csv importaciones
df_Segment = pd.read_csv("df_Segment.csv", index_col=0)
df_Category = pd.read_csv("df_Category.csv", index_col=0)
df_Product_N = pd.read_csv("df_Product.csv", index_col=0)
df_Sales_N = pd.read_csv("df_Sales.csv", index_col=0)
df_Calendar = pd.read_csv("df_Calendar.csv", index_col=0)

## Preparación de tablas a utilizar

Se remueve atributos duplicados para las tablas DUMMIES

In [2]:
def list_duplicates(seq):
  seen = set()
  seen_add = seen.add
  # adds all elements it doesn't know yet to seen and all other to seen_twice
  seen_twice = set( x for x in seq if x in seen or seen_add(x) )
  # turn the set into a list (as requested)
  return list( seen_twice )

In [3]:
Lista = [*df_Product_N["ATTR3"].unique(), *df_Product_N["ATTR2"].unique(), *df_Product_N["ATTR1"].unique()]
#print(Lista)

print("\nColumnas duplicadas: ", list_duplicates(Lista))


Columnas duplicadas:  [nan, 'SANITIZANTE', 'CLORO']


### Creación de tabla de DUMMIES para atributos booleanos.

In [4]:
# Crear tabla de DUMMIES
Dummies_Etiquetas = pd.get_dummies(df_Product_N[["ATTR3","ATTR2", "ATTR1"]]) 

## Combinar True para misma etiqueta
Dummies_Etiquetas["ATTR1_CLORO"] = Dummies_Etiquetas["ATTR1_CLORO"] | Dummies_Etiquetas["ATTR2_CLORO"] 
Dummies_Etiquetas["ATTR1_SANITIZANTE"] = Dummies_Etiquetas["ATTR1_SANITIZANTE"] | Dummies_Etiquetas["ATTR2_SANITIZANTE"]

# Remover columnas ya no se utilizaran
Dummies_Etiquetas.drop(columns= ["ATTR2_CLORO","ATTR2_SANITIZANTE"], inplace=True) 

# Remover el prefijo ATTR?
Dummies_Etiquetas.columns = Dummies_Etiquetas.columns.str[6:]

# Ordenar columnas en orden alfabetico
Dummies_Etiquetas = Dummies_Etiquetas.sort_index(axis=1)

Dummies_Etiquetas

Unnamed: 0,BAMBINO,BLANCO,CLORO,COLOR PODER VINAGRE,FABRIC TREATMENT,GERMICIDA,MASCOTAS,MULTIUSOS,NO DEFINIDO,OTR. TIPOS,PRE LAVADOR,PRELAVADOR,QUITAMANCHAS,ROPA BEBE,ROPA BLANCA,ROPA COLOR,ROSA,SAFE BLEACH,SANITIZANTE,SANITIZANTE.1
0,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
1,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
2,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
3,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
4,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
498,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False
499,False,False,True,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False
500,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,True,True,False,False
501,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False


### Remover los atributos para combinar las tablas posteriormente

In [5]:
df_Product_N.loc[0:, ~df_Product_N.columns.isin(["ATTR1","ATTR2", "ATTR3"])]

Unnamed: 0,MANUFACTURER,BRAND,ITEM,ITEM_DESCRIPTION,CATEGORY,FORMAT
0,INDS. ALEN,CLORALEX,0000075000592,CLORALEX EL RENDIDOR BOT.PLAST. 250ML NAL. 000...,1,LIQUIDO
1,INDS. ALEN,CLORALEX,0000075000608,CLORALEX EL RENDIDOR BOT.PLAST. 500ML NAL. 000...,1,LIQUIDO
2,INDS. ALEN,CLORALEX,0000075000615,CLORALEX EL RENDIDOR BOT.PLAST. 950ML NAL. 000...,1,LIQUIDO
3,INDS. ALEN,CLORALEX,0000075000622,CLORALEX EL RENDIDOR BOT.PLAST. 2000ML NAL 000...,1,LIQUIDO
4,INDS. ALEN,CLORALEX,0000075000639,CLORALEX EL RENDIDOR BOT.PLAST. 3750ML NAL 000...,1,LIQUIDO
...,...,...,...,...,...,...
498,IBERIA,IBERIA,8411660210036,IBERIA REVOLUTION QUITA MANCHAS ACCIDENTALES B...,1,LIQUIDO
499,JABONERA LA ESPUMA,BCLORHADA,7501681101305BP1,BCLORHADA MASC DET DES C/CLOR1L+MM MASCHOGAR D...,1,LIQUIDO
500,RECKITT,VANISH,7501058789778BP1,VANISH EXT HIGIENE REM MANCHAS GAL 4LT + VANIS...,1,LIQUIDO
501,INDS. ALEN,CLORALEX,7501025412142,CLORALEX AROMAS BLANQUEADOR C/AROMA LAVANDA GA...,1,LIQUIDO


## Uso del Market Basket para analizar las combinaciones de Atributos mas comunes en los productos

In [6]:
# instalación del módulo mlxtend --- Por si no lo tenian instalado
!pip install mlxtend



In [7]:
# Aplicación del algoritmo "a priori" para localizar los articulos frecuentemente comprados en la base de datos
from mlxtend.frequent_patterns import apriori

# Analisis "a priori" con un soporte minimo del 1.5%
articulos_frec = apriori(Dummies_Etiquetas, min_support= 0.2, use_colnames= True)
articulos_frec = articulos_frec.sort_values("support", ascending= False)
articulos_frec = articulos_frec.reset_index(drop = True)

# articulos_frec["length"] = articulos_frec["itemsets"].apply(lambda x: len(x))
articulos_frec

Unnamed: 0,support,itemsets
0,0.491054,(CLORO)
1,0.487078,(FABRIC TREATMENT)
2,0.4334,(SAFE BLEACH)
3,0.4334,"(FABRIC TREATMENT, SAFE BLEACH)"
4,0.270378,(NO DEFINIDO)
5,0.270378,"(NO DEFINIDO, CLORO)"


In [8]:
from mlxtend.frequent_patterns import association_rules
association_rules(articulos_frec, metric = "confidence",
                 min_threshold = 0.6).sort_values("confidence", ascending = False).reset_index(drop = True)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,representativity,leverage,conviction,zhangs_metric,jaccard,certainty,kulczynski
0,(SAFE BLEACH),(FABRIC TREATMENT),0.4334,0.487078,0.4334,1.0,2.053061,1.0,0.2223,inf,0.905263,0.889796,1.0,0.944898
1,(NO DEFINIDO),(CLORO),0.270378,0.491054,0.270378,1.0,2.036437,1.0,0.137608,inf,0.697548,0.550607,1.0,0.775304
2,(FABRIC TREATMENT),(SAFE BLEACH),0.487078,0.4334,0.4334,0.889796,2.053061,1.0,0.2223,5.141374,1.0,0.889796,0.805499,0.944898


### Al revisar esto la "Combinacion" mas comun de etiquetas, por lo menos las mas utilizadas, son excluyentes entre ellas, por lo cual se analizara si hay algun tipo de relacion entre el inclemente de una categoria con respecto a la otra, ademas de intentar predecir los comportamientos que presentaran.

## Se combinan las tablas de Sales, Calendar, Dummies_Atributo y Calendario para posteriores usos.

In [9]:
Dummies_Etiquetas["ITEM"] = df_Product_N["ITEM"]

#Tabla con producto y atributo
Items_ATTR_CF = Dummies_Etiquetas.loc[:,["ITEM","CLORO", "FABRIC TREATMENT"]]

# Combinacion de tablas para tener las fechas y etiqueta atributo
df_Sales_on_time = pd.merge(df_Sales_N, df_Calendar, on='WEEK', how='inner')
df_Sales_on_time.rename(columns={'ITEM_CODE': 'ITEM'}, inplace= True)

Sales_Time_ATTR = pd.merge(df_Sales_on_time, Items_ATTR_CF, on='ITEM', how='inner')

Sales_Time_ATTR.head(5)

Unnamed: 0,WEEK,ITEM,TOTAL_UNIT_SALES,TOTAL_VALUE_SALES,TOTAL_UNIT_AVG_WEEKLY_SALES,REGION,YEAR,MONTH,WEEK_NUMBER,DATE,CLORO,FABRIC TREATMENT
0,34-22,7501058792808BP2,0.006,0.139,1.0,TOTAL AUTOS AREA 5,2022,8,34,2022-08-28,False,True
1,34-22,7501058715883,0.487,116.519,2.916,TOTAL AUTOS AREA 5,2022,8,34,2022-08-28,False,True
2,34-22,7702626213774,1.391,68.453,5.171,TOTAL AUTOS AREA 5,2022,8,34,2022-08-28,False,True
3,34-22,7501058716422,0.022,1.481,1.833,TOTAL AUTOS AREA 5,2022,8,34,2022-08-28,False,True
4,34-22,7501058784353,2.037,182.839,5.375,TOTAL AUTOS AREA 5,2022,8,34,2022-08-28,False,True


In [10]:
Dummies_Etiquetas["ITEM"] = df_Product_N["ITEM"]

#Tabla con producto y atributo
Items_ATTR_CF = Dummies_Etiquetas.loc[:,["ITEM","CLORO", "FABRIC TREATMENT"]]

# Combinacion de tablas para tener las fechas y etiqueta atributo
df_Sales_on_time = pd.merge(df_Sales_N, df_Calendar, on='WEEK', how='inner')
df_Sales_on_time.rename(columns={'ITEM_CODE': 'ITEM'}, inplace= True)

Sales_Time_ATTR = pd.merge(df_Sales_on_time, Items_ATTR_CF, on='ITEM', how='inner')

Sales_Time_ATTR.head(5)

Unnamed: 0,WEEK,ITEM,TOTAL_UNIT_SALES,TOTAL_VALUE_SALES,TOTAL_UNIT_AVG_WEEKLY_SALES,REGION,YEAR,MONTH,WEEK_NUMBER,DATE,CLORO,FABRIC TREATMENT
0,34-22,7501058792808BP2,0.006,0.139,1.0,TOTAL AUTOS AREA 5,2022,8,34,2022-08-28,False,True
1,34-22,7501058715883,0.487,116.519,2.916,TOTAL AUTOS AREA 5,2022,8,34,2022-08-28,False,True
2,34-22,7702626213774,1.391,68.453,5.171,TOTAL AUTOS AREA 5,2022,8,34,2022-08-28,False,True
3,34-22,7501058716422,0.022,1.481,1.833,TOTAL AUTOS AREA 5,2022,8,34,2022-08-28,False,True
4,34-22,7501058784353,2.037,182.839,5.375,TOTAL AUTOS AREA 5,2022,8,34,2022-08-28,False,True


In [11]:
Sales_Time_ATTR.to_csv('Sales_Time_ATTR.csv', index=False)