# Preferencias de Comercios de Clientes de Tarjeta de Crédito

El proposito de esta iniciativa es poder determinar cuales son los tipos de comercios preferidos por nuestros clientes, crear un algoritmo que a partir de las transacciones de un cliente determine cuales son sus categorias de comercios preferidos, poder medir que tan preferente es este comercio para poder ordenarlos, y usar los top n comercios preferidos. 

Esta presentación esta dividida en secciones. Puedes hacer clic en las flechas para navegar, o utilizar la tecla SPACE para avanzar según el orden de la presentación.

In [1]:
import pandas as pd 
import numpy as np
import qgrid
from sklearn.decomposition import PCA
from sklearn.preprocessing import MinMaxScaler
import plotly.plotly as py
import plotly.graph_objs as go
from plotly.offline import iplot as ipy
import  plotly

plotly.offline.init_notebook_mode(connected=True)
plotly_config={'showLink': False}

# Un vistazo a los datos

Para esta proyecto, fueron utilizados las transacciones de Tarjetas de Crédito de clientes de BSC en el año 2018, resumidas por comercio, por mes, por cliente. Este resumen contiene el valor total de las transacciones y la cantidad total de transacciones realizadas por el cliente en un comercio particular.

In [2]:
transacciones =  pd.read_csv("data/Transacciones_TC_Pre_Categoria_Sample.zip",compression='zip')
transacciones.head()

Unnamed: 0,Codigo_Cliente,DESCRI_PRODUCTO,Moneda,Anio,Mes,Cantidad,Valor_Total_RD,Comercios_Replace,Categoria_Nueva,CODIGO_CATEGORIA_NUEVO
0,107893,VISA PLATINO,DOP,2018,6,1,3390.0,Protein Supplier,Clinicas,8011
1,106623,VISA CLASICA,DOP,2018,6,2,4408.47,Sirena,Supermercados,5411
2,329401,VISA CLASICA,USD,2018,4,1,2234.5,Young World,Mercaderia Miscelanea,5399
3,190163,VISA CLASICA,USD,2018,12,1,599.5,Netflix,Servicio De Telecable,4899
4,163427,VISA EMPRESARIAL,DOP,2018,4,2,420.01,Burger King,Rest De Comida Rapida,5814


# Preparación de Categorias

Lo primero que hicimos fue consolidar las categorias de comercios de transacciones de Tarjetas. Esto es debido a que existen más de 300 categorias, las cuales pueden ser agrupadas por sus similitudes.

Vamos primero a visualizar las categorias y sus comercios utilizando una tabla interactiva. Puede filtrar y buscar en esta tabla para explorar los datos.

In [3]:
transacciones_productos_categoria = (transacciones.groupby(["CODIGO_CATEGORIA_NUEVO","Categoria_Nueva","Comercios_Replace"])
                                                  [['Cantidad','Valor_Total_RD']]
                                                  .sum()
                                                  .reset_index()
                                                  .sort_values(['Cantidad','Valor_Total_RD'],ascending=[False,False]))
productos_categoria_widget = qgrid.show_grid(transacciones_productos_categoria)

In [1]:
productos_categoria_widget

NameError: name 'productos_categoria_widget' is not defined

Se pueden observar las categorias que facturan más tanto en cantidad como en montos, y sus comercios más populares. Sin embargo, analizar este inmenso numero de categorias no es muy sencillo. Afortunadamente, las categorias pueden ser agrupadas, por ejemplo, todas las relacionadas a lineas aereas y viajes en una sola categoria. Para ayudarnos, los primeros digitos de un codigo de categoria usualmente representan una categoria en comun. 

Vamos a explorar estos codigos para crear una tabla de reemplazos. 

In [5]:
categorias = transacciones[['CODIGO_CATEGORIA_NUEVO','Categoria_Nueva']].drop_duplicates()
categorias = categorias.sort_values(by='CODIGO_CATEGORIA_NUEVO')
categorias.CODIGO_CATEGORIA_NUEVO = categorias.CODIGO_CATEGORIA_NUEVO.astype(str)
categorias.head()

Unnamed: 0,CODIGO_CATEGORIA_NUEVO,Categoria_Nueva
417,0,Ath
2254,742,Veterinarias
41,763,Ventas Productos Agricolas
80165,780,Ladscaping And Horticultural Servises
9631,1520,General Contractors Resid And Comercial


In [6]:
categorias['CODIGO_CATEGORIA_NUEVO'] = categorias['CODIGO_CATEGORIA_NUEVO'].str.pad(4,'left','0')
categorias['head_codigo'] = categorias.CODIGO_CATEGORIA_NUEVO.apply(lambda x: x[:2])
categorias['index_codigo'] = categorias.CODIGO_CATEGORIA_NUEVO.apply(lambda x: x[0])
qgrid_categorias = qgrid.show_grid(categorias)
categorias.head()

Unnamed: 0,CODIGO_CATEGORIA_NUEVO,Categoria_Nueva,head_codigo,index_codigo
417,0,Ath,0,0
2254,742,Veterinarias,7,0
41,763,Ventas Productos Agricolas,7,0
80165,780,Ladscaping And Horticultural Servises,7,0
9631,1520,General Contractors Resid And Comercial,15,1


In [7]:
qgrid_categorias

QgridWidget(grid_options={'fullWidthRows': True, 'syncColumnCellResize': True, 'forceFitColumns': True, 'defau…

Segun estos codigos, creamos una tabla para agrupar las categorias de comercios segun los dos primeros digitos de la categoria.

In [8]:
head_codigo_replacement_dict = {
    '07': 'Servicios Agropecuarios',
    '00': 'Ath',
    '15': 'Servicios de Construccion y Decoracion',
    '17': 'Servicios de Construccion y Decoracion',
    '27': 'Servicios de Textiles e Imprenta',
    '28': 'Servicios de Textiles e Imprenta',
    '30': 'Servicios de Transporte y Viajes',
    '31': 'Servicios de Transporte y Viajes',
    '32': 'Servicios de Transporte y Viajes',
    '33': 'Alquiler de Automoviles',
    '34': 'Alquiler de Automoviles',
    '35': 'Hoteles Moteles Resorts',
    '36': 'Hoteles Moteles Resorts',
    '37': 'Hoteles Moteles Resorts',
    '40': 'Servicios de Transporte y Viajes',
    '41': 'Servicios de Transporte y Viajes',
    '42': 'Servicios de Transporte y Viajes',
    '44': 'Servicios de Transporte y Viajes',
    '45': 'Servicios de Transporte y Viajes',
    '47': 'Servicios de Transporte y Viajes',
    '48': 'Servicios de Comunicacion, Internet y Telecable',
    '49': 'Ventas y Servicios de Equipos Electricos',
    '50': 'Ventas y Servicios de Equipos Electricos',
    '51': 'Articulos de Oficina',
    '52': 'Ferreterias y Hogar',
    '53':  'Ropas',
    '54': 'Supermercados y Alimentos',
    '55': 'Gasolineras y Vehiculos',
    '56': 'Ropas',
    '57': 'Ferreterias y Hogar',
    '59': 'Tienda De Venta Especializada',
    '60': 'Instituciones Financieras y Aseguradoras',
    '62': 'Instituciones Financieras y Aseguradoras',
    '63': 'Instituciones Financieras y Aseguradoras',
    '65': 'Instituciones Financieras y Aseguradoras',
    '70': 'Hoteles Moteles Resorts',
    '72': 'Servicios de Salud, Belleza y Recreacion',
    '73': 'Otros Servicios',
    '75' : 'Gasolineras y Vehiculos',
    '76' : 'Ventas y Servicios de Equipos Electricos',
    '78': 'Cine y Peliculas',
    '79': 'Servicios de Salud, Belleza y Recreacion',
    '80': 'Servicios de Salud, Belleza y Recreacion',
    '81': 'Otros Servicios',
     '82': 'Servicios Educativos',
    '83': 'Otros Servicios',
    '86': 'Otros Servicios',
    '87' : 'Servicios de Salud, Belleza y Recreacion',
    '89': 'Otros Servicios',
    '92': 'Servicios Gubernamentales',
    '93': 'Servicios Gubernamentales',
    '94': 'Servicios Gubernamentales'
}

codigo_replacement_dict = {
    '5814':'Comida Rapida',
    '5812': 'Restaurantes',
    '5811': 'Licores',
    '5813': 'Vida Nocturna',
    '5734': 'Tecnologia y Software',
    '5732': 'Musica',
    '5733': 'Musica',
    '5735' : 'Musica',
    '5921':  'Licores',
    '7299' : 'Servicio Personales (Deliveries, etc.)',
    '5912': 'Servicios de Salud, Belleza y Recreacion'
}

head_codigo_df = pd.DataFrame({"head_codigo":list(head_codigo_replacement_dict.keys()),
                               "Agrupacion": list(head_codigo_replacement_dict.values())})
head_codigo_df_merge = head_codigo_df.merge(categorias)
for codigo,repl in codigo_replacement_dict.items():
    head_codigo_df_merge.loc[head_codigo_df_merge.CODIGO_CATEGORIA_NUEVO == codigo, 'Agrupacion'] = repl
head_codigo_df_qgrid = qgrid.show_grid(head_codigo_df_merge)

In [9]:
head_codigo_df_qgrid 

QgridWidget(grid_options={'fullWidthRows': True, 'syncColumnCellResize': True, 'forceFitColumns': True, 'defau…

In [10]:
categorias['Categoria_Agrupada'] = categorias.head_codigo.replace(head_codigo_replacement_dict)
for codigo,repl in codigo_replacement_dict.items():
    categorias.loc[categorias.CODIGO_CATEGORIA_NUEVO == codigo, 'Categoria_Agrupada'] = repl
categorias.head()

Unnamed: 0,CODIGO_CATEGORIA_NUEVO,Categoria_Nueva,head_codigo,index_codigo,Categoria_Agrupada
417,0,Ath,0,0,Ath
2254,742,Veterinarias,7,0,Servicios Agropecuarios
41,763,Ventas Productos Agricolas,7,0,Servicios Agropecuarios
80165,780,Ladscaping And Horticultural Servises,7,0,Servicios Agropecuarios
9631,1520,General Contractors Resid And Comercial,15,1,Servicios de Construccion y Decoracion


In [11]:
categorias['CODIGO_CATEGORIA_NUEVO'] = categorias['CODIGO_CATEGORIA_NUEVO'].astype(int)
categorias.head()

Unnamed: 0,CODIGO_CATEGORIA_NUEVO,Categoria_Nueva,head_codigo,index_codigo,Categoria_Agrupada
417,0,Ath,0,0,Ath
2254,742,Veterinarias,7,0,Servicios Agropecuarios
41,763,Ventas Productos Agricolas,7,0,Servicios Agropecuarios
80165,780,Ladscaping And Horticultural Servises,7,0,Servicios Agropecuarios
9631,1520,General Contractors Resid And Comercial,15,1,Servicios de Construccion y Decoracion


In [12]:
transacciones = transacciones.merge(categorias[['CODIGO_CATEGORIA_NUEVO','Categoria_Agrupada']])
transacciones = transacciones[['Codigo_Cliente','DESCRI_PRODUCTO','Moneda','Anio','Mes','Cantidad','Valor_Total_RD',
                              'Comercios_Replace','Categoria_Nueva','Categoria_Agrupada']]

Con esto, agregamos una nueva agrupación a las transacciones, con la cual haremos el análisis.

In [13]:
transacciones.head()

Unnamed: 0,Codigo_Cliente,DESCRI_PRODUCTO,Moneda,Anio,Mes,Cantidad,Valor_Total_RD,Comercios_Replace,Categoria_Nueva,Categoria_Agrupada
0,107893,VISA PLATINO,DOP,2018,6,1,3390.0,Protein Supplier,Clinicas,"Servicios de Salud, Belleza y Recreacion"
1,135229,VISA PLATINO,DOP,2018,2,1,2500.0,Blasina Canto Contreras,Clinicas,"Servicios de Salud, Belleza y Recreacion"
2,167696,VISA ORO,DOP,2018,2,1,739.66,Centro Policlinico Nacion,Clinicas,"Servicios de Salud, Belleza y Recreacion"
3,85908,VISA PLATINO,DOP,2018,10,1,184.6,Centro Medico Real,Clinicas,"Servicios de Salud, Belleza y Recreacion"
4,299716,VISA CLASICA,DOP,2018,10,1,365.7,Clinica Dr Rodriguez Sant,Clinicas,"Servicios de Salud, Belleza y Recreacion"


In [14]:
transacciones = transacciones.loc[transacciones.Categoria_Agrupada != "Ath"]
transacciones.Categoria_Agrupada = transacciones.Categoria_Agrupada.str.replace("Alquier|Alquiter|Alquilter","Alquiler")

# Preparación de Datos

#### Fecha

Ya que las transacciones no incluyen la fecha, sino que estan resumidas por mes, agruparemos todas las transacciones al primer dia de cada mes, y crearemos una fecha con ellas.

In [15]:
transacciones["Fecha"] = pd.to_datetime(transacciones.Anio.astype(str) + "-"\
                         + transacciones.Mes.astype(str).str.pad(2,"left","0")\
                         + "-01")
transacciones.Fecha.head()

0   2018-06-01
1   2018-02-01
2   2018-02-01
3   2018-10-01
4   2018-10-01
Name: Fecha, dtype: datetime64[ns]

#### Meses Anteriores 

Para determinar la recencia de las transacciones, calculamos los meses anteriores a la fecha maxima de los datos, en este caso Diciembre 2018.

In [16]:
def month_diff_indiv(a, b):
    return 12 * (a.year - b.dt.year) + (a.month - b.dt.month)
transacciones["Meses_Anteriores"] = month_diff_indiv(transacciones.Fecha.max(), transacciones.Fecha)

In [17]:
transacciones[['Fecha','Meses_Anteriores']].head()

Unnamed: 0,Fecha,Meses_Anteriores
0,2018-06-01,6
1,2018-02-01,10
2,2018-02-01,10
3,2018-10-01,2
4,2018-10-01,2


In [18]:
transacciones = transacciones.loc[transacciones.Meses_Anteriores <= 12]
transacciones.shape

(1004234, 12)

Por último, establecemos la configuración de las variables a analizar. Estas son:

- Agrupaciones de Interes: Cliente, Producto, Categoria Agrupada de Comercio
- Identificador: Cliente + Producto
- Valores a Medir: Cantidad, Monto Total Transaccionado, Recencia de Transacciones.
- Top N Comercios: Top 3 Comercios segun condiciones.

In [19]:
# CONFIG VARS
# Nivel de Interes: Cliente. Puede ser cliente y producto. 
categoria_comercio_interes = ['DESCRI_PRODUCTO','Categoria_Agrupada']
interes_group = ['Codigo_Cliente'] + categoria_comercio_interes
identificador_group = ['Codigo_Cliente','DESCRI_PRODUCTO']
valores_medida = ['Cantidad','Valor_Total_RD']
top_n = 3

# Metodos para Calcular Preferencias de Comercios

## Por Cantidad: Mientras más transacciones mejor

In [20]:
transacciones_agrupadas = transacciones.groupby(interes_group)[valores_medida].sum().reset_index()
transacciones_agrupadas.head(10)

Unnamed: 0,Codigo_Cliente,DESCRI_PRODUCTO,Categoria_Agrupada,Cantidad,Valor_Total_RD
0,1,VISA EMPRESARIAL,Ferreterias y Hogar,2,2114.62
1,1,VISA EMPRESARIAL,Gasolineras y Vehiculos,4,12787.54
2,1,VISA EMPRESARIAL,Hoteles Moteles Resorts,5,184349.0
3,1,VISA EMPRESARIAL,Licores,7,195742.92
4,1,VISA EMPRESARIAL,Otros Servicios,31,925618.83
5,1,VISA EMPRESARIAL,Restaurantes,9,38241.45
6,1,VISA EMPRESARIAL,Servicios Agropecuarios,1,5900.0
7,1,VISA EMPRESARIAL,Servicios Educativos,1,6450.0
8,1,VISA EMPRESARIAL,Servicios Gubernamentales,36,11993702.97
9,1,VISA EMPRESARIAL,"Servicios de Comunicacion, Internet y Telecable",104,14825500.03


In [21]:
def get_top_n_comercios_medida(transacciones_agrupadas, medida):
    top_n_comercios_medida = transacciones_agrupadas.sort_values(medida,ascending=False)\
                                                  .groupby(identificador_group)\
                                                  .head(top_n)\
                                                  .sort_values(identificador_group)
    return top_n_comercios_medida
    

In [22]:
top_n_comercios_cantidad = get_top_n_comercios_medida(transacciones_agrupadas,'Cantidad')
top_n_comercios_cantidad.Categoria_Agrupada.value_counts().head(20)

Supermercados y Alimentos                          35689
Gasolineras y Vehiculos                            21833
Servicios de Salud, Belleza y Recreacion           12580
Tienda De Venta Especializada                      11769
Servicios de Comunicacion, Internet y Telecable    10453
Ropas                                               9002
Comida Rapida                                       8309
Servicios Gubernamentales                           5639
Restaurantes                                        5215
Ferreterias y Hogar                                 5140
Servicios de Transporte y Viajes                    2266
Otros Servicios                                     1438
Servicios Educativos                                1287
Licores                                             1181
Musica                                              1152
Instituciones Financieras y Aseguradoras            1011
Ventas y Servicios de Equipos Electricos             817
Vida Nocturna                  

En esta tabla, se muestran la cantidad de clientes que según su total de transacciones, prefieren una categoria de comercio especifica. En esta categoria, se puede visualizar el enfoque en categorias que gastan menos pero que son consumidas más frecuentemente, como *Comida Rapida*, *Musica* y *Vida Nocturna*. 

# Por Monto: Mientras más gasta, mejor

In [23]:
top_n_comercios_valor = get_top_n_comercios_medida(transacciones_agrupadas,'Valor_Total_RD')
top_n_comercios_valor.Categoria_Agrupada.value_counts().head(20)

Supermercados y Alimentos                          34117
Gasolineras y Vehiculos                            19239
Tienda De Venta Especializada                      12300
Servicios de Comunicacion, Internet y Telecable    11945
Servicios de Salud, Belleza y Recreacion           11066
Ropas                                              10957
Ferreterias y Hogar                                 6457
Servicios Gubernamentales                           6352
Restaurantes                                        4372
Servicios de Transporte y Viajes                    3877
Comida Rapida                                       3675
Servicios Educativos                                2855
Otros Servicios                                     1848
Instituciones Financieras y Aseguradoras            1786
Hoteles Moteles Resorts                             1264
Ventas y Servicios de Equipos Electricos            1229
Licores                                             1137
Vida Nocturna                  

A diferencia de las preferencias por Cantidad de transacciones, las categorias en las que se suele gastar más dinero tienen mayor preferencia. Tambien, hay mucha mayor participación de categorias como *Viajes*, *Hogar* y *Servicios Educativos*.

# Por Recencia: Mientras más reciente, mejor

In [24]:
import gc
gc.collect()

42

In [25]:
def crear_recencia(transacciones):
    recencia = pd.qcut(transacciones.Meses_Anteriores,10,labels=list(range(10,0,-1))).astype(int)
    return recencia

Definimos la recencia en 10 valores distintos, según los meses anteriores a la última transacción de la categoria. Los rangos de valores se muestran a continuación.

In [26]:
pd.qcut(transacciones.Meses_Anteriores,10).cat.categories

IntervalIndex([(-0.001, 1.0], (1.0, 2.0], (2.0, 3.0], (3.0, 4.0], (4.0, 5.0], (5.0, 6.0], (6.0, 8.0], (8.0, 9.0], (9.0, 10.0], (10.0, 11.0]],
              closed='right',
              dtype='interval[float64]')

Estos valores fueron reemplazados con los numeros del 10 al 1, siendo 10 el más reciente (menos de un mes) y 1 el más antiguo.

In [27]:
transacciones['Recencia'] = crear_recencia(transacciones)
transacciones.Recencia.describe().astype(int)

count    1004234
mean           5
std            2
min            1
25%            4
50%            6
75%            9
max           10
Name: Recencia, dtype: int32

In [28]:
def get_top_n_comercios_recencia(transacciones):
    
    top_n_comercios_recencia= transacciones.sort_values(by=['Codigo_Cliente','Recencia'],ascending=[True,False]
                                 ).groupby(interes_group + ['Recencia'])\
                                 ['Cantidad'].count()\
                                 .reset_index()\
                                 .sort_values(by=['Recencia','Cantidad'],ascending=[False,False])\
                                 .groupby(identificador_group)\
                                 .head(top_n)\
                                 .sort_values(identificador_group)
                                                
    return top_n_comercios_recencia
    

In [29]:
top_n_comercios_recencia = get_top_n_comercios_recencia(transacciones)
top_n_comercios_recencia.Categoria_Agrupada.value_counts().head(20)

Supermercados y Alimentos                          34042
Gasolineras y Vehiculos                            24467
Tienda De Venta Especializada                      11261
Servicios de Comunicacion, Internet y Telecable    11244
Servicios de Salud, Belleza y Recreacion           11213
Ropas                                               9923
Comida Rapida                                       9467
Servicios Gubernamentales                           6172
Ferreterias y Hogar                                 6014
Restaurantes                                        5637
Servicios de Transporte y Viajes                    2429
Otros Servicios                                     1855
Servicios Educativos                                1578
Musica                                              1499
Licores                                             1466
Instituciones Financieras y Aseguradoras            1421
Hoteles Moteles Resorts                              944
Ventas y Servicios de Equipos E

En este metodo, se ve mayor presencia en categorias recurrentes, como *Musica*, *Gasolineras* y *Cine y Peliculas*. 

# Termometro: Una combinación estadistica de las tres anteriores.

En este metodo, se utilizan tecnicas matematicas y estadisticas para llevar la Cantidad y Monto de transacciones a la misma escala (ya que una usualmente se mide del 1 al 100, y la otra en millones), combinarlas de tal manera que ambas tengan el mismo peso y por último multiplicar el valor resultante por la recencia. De esta manera se combinan los 3 metodos anteriores de manera estadistica.

In [30]:
def crear_termometro(value_matrix):
    value_matrix = MinMaxScaler().fit_transform(value_matrix)
    termometro = PCA(n_components=1).fit_transform(value_matrix)
    termometro_scaled = MinMaxScaler().fit_transform(termometro)
    return termometro_scaled

In [31]:
transacciones_agrupadas['Recencia'] = transacciones.groupby(interes_group)['Recencia'].max().reset_index()['Recencia']

Ejemplo de la combinación creada por el Termometro.

In [32]:
transacciones_agrupadas['Termometro'] = crear_termometro(transacciones_agrupadas[['Cantidad','Valor_Total_RD']].values)
transacciones_agrupadas['Termometro'] = transacciones_agrupadas['Termometro'] * transacciones_agrupadas.Recencia
transacciones_agrupadas.sort_values(by='Termometro',ascending=False).head(10)

Unnamed: 0,Codigo_Cliente,DESCRI_PRODUCTO,Categoria_Agrupada,Cantidad,Valor_Total_RD,Recencia,Termometro
106658,203354,VISA EMPRESARIAL,Ferreterias y Hogar,12,24925924.0,10,10.0
79539,151842,VISA EMPRESARIAL,Servicios de Transporte y Viajes,8,19787350.0,8,6.348926
9,1,VISA EMPRESARIAL,"Servicios de Comunicacion, Internet y Telecable",104,14825500.03,10,6.076134
33339,74414,VISA INFINITE,Ropas,56,14540461.0,10,5.898096
86887,163427,VISA EMPRESARIAL,Supermercados y Alimentos,3192,3638907.56,10,5.702519
8,1,VISA EMPRESARIAL,Servicios Gubernamentales,36,11993702.97,10,4.851256
32515,72911,VISA INFINITE,Ropas,24,9329293.5,10,3.767926
24279,54613,VISA PLATINO,Articulos de Oficina,18,8759746.0,10,3.531783
42316,88783,VISA INFINITE,Ropas,69,8132070.5,10,3.348177
86879,163427,VISA EMPRESARIAL,Restaurantes,1943,1279517.39,10,3.095885


In [33]:
top_n_comercios_termometro = get_top_n_comercios_medida(transacciones_agrupadas,'Termometro')
top_n_comercios_termometro.Categoria_Agrupada.value_counts().head(20)

Supermercados y Alimentos                          35476
Gasolineras y Vehiculos                            20813
Tienda De Venta Especializada                      12189
Servicios de Salud, Belleza y Recreacion           11967
Servicios de Comunicacion, Internet y Telecable    11120
Ropas                                               9661
Comida Rapida                                       6029
Servicios Gubernamentales                           5931
Ferreterias y Hogar                                 5552
Restaurantes                                        4609
Servicios de Transporte y Viajes                    3166
Servicios Educativos                                1964
Otros Servicios                                     1552
Instituciones Financieras y Aseguradoras            1354
Licores                                             1125
Musica                                              1084
Ventas y Servicios de Equipos Electricos            1027
Hoteles Moteles Resorts        

Al combinar las metricas, se nota más la presencia de categorias en la que se gasta mucho, se compra mucho, y se va frecuente, como *Supermercados*, *Salud y Belleza*, *Tiendas de Venta Especializadas (aquí caen muchos negocios en Linea como Amazon)*. 

# RFM: Combinación más heuristica de la Recencia, Cantidad y Valor Monetario

Otro metodo parecido al del termometro es el del RFM (Recency, Frequency, Monetary Value). Igual, consideramos las 3 metricas con el mismo peso, pero estos pesos seran llevados a numeros del 1 al 10, como se hizo con la recencia. Las divisiones se encontraran segun los deciles o aproximaciones de los deciles de la distribucion de cada metrica, igual que como se hizo con la recencia.

División de las cantidades

In [34]:
 pd.cut(transacciones_agrupadas.Cantidad,[0,1,3,5,7,10,20,30,50,100,100000]).cat.categories

IntervalIndex([(0, 1], (1, 3], (3, 5], (5, 7], (7, 10], (10, 20], (20, 30], (30, 50], (50, 100], (100, 100000]],
              closed='right',
              dtype='interval[int64]')

División del Valor Monetario

In [35]:
pd.qcut(transacciones_agrupadas.Valor_Total_RD,10,).cat.categories

IntervalIndex([(0.499, 500.0], (500.0, 971.464], (971.464, 1500.0], (1500.0, 2247.0], (2247.0, 3315.0], (3315.0, 4975.162], (4975.162, 7685.838], (7685.838, 12845.4], (12845.4, 26172.27], (26172.27, 24925924.0]],
              closed='right',
              dtype='interval[float64]')

Por último, luego de tener el score RFM de las 3 metricas, se calcula el promedio de las 3 para llegar al score RFM final.

In [36]:
def crear_score_RFM(transacciones_agrupadas):
    transacciones_agrupadas['Cantidad_RFM'] = pd.cut(transacciones_agrupadas.Cantidad,[0,1,3,5,7,10,20,30,50,100,100000]
                                                 ,labels=list(range(1,11))).astype(int)
    transacciones_agrupadas['Valor_Monetario_RFM'] = pd.qcut(transacciones_agrupadas.Valor_Total_RD
                                                         ,10,labels=list(range(1,11))).astype(int)
    transacciones_agrupadas['Score_RFM'] = transacciones_agrupadas[['Recencia','Cantidad_RFM','Valor_Monetario_RFM']
                                                              ].mean(axis=1)
    return transacciones_agrupadas['Score_RFM']

Ejemplo de algunos valores del score RFM en los datos.

In [37]:
transacciones_agrupadas['Score_RFM'] = crear_score_RFM(transacciones_agrupadas)
transacciones_agrupadas[['Codigo_Cliente','Categoria_Agrupada',
                         'Cantidad_RFM','Recencia','Valor_Monetario_RFM','Score_RFM']].sample(10)

Unnamed: 0,Codigo_Cliente,Categoria_Agrupada,Cantidad_RFM,Recencia,Valor_Monetario_RFM,Score_RFM
117909,223204,Ropas,2,4,4,3.333333
271132,415476,Ropas,1,9,3,4.333333
144249,272748,Gasolineras y Vehiculos,3,10,7,6.666667
251751,393191,Tienda De Venta Especializada,3,8,7,6.0
247788,389844,Instituciones Financieras y Aseguradoras,1,4,5,3.333333
218433,363053,"Servicios de Comunicacion, Internet y Telecable",2,4,6,4.0
44250,91767,Restaurantes,1,10,5,5.333333
157776,294641,"Servicios de Comunicacion, Internet y Telecable",1,10,7,6.0
165450,306208,Ferreterias y Hogar,1,10,7,6.0
7423,24317,"Servicios de Salud, Belleza y Recreacion",1,10,4,5.0


In [38]:
top_n_comercios_rfm = get_top_n_comercios_medida(transacciones_agrupadas,'Score_RFM')
top_n_comercios_rfm.Categoria_Agrupada.value_counts().head(20)

Supermercados y Alimentos                          35341
Gasolineras y Vehiculos                            20657
Tienda De Venta Especializada                      12490
Servicios de Salud, Belleza y Recreacion           12190
Servicios de Comunicacion, Internet y Telecable    11492
Ropas                                               9965
Servicios Gubernamentales                           6039
Ferreterias y Hogar                                 5549
Comida Rapida                                       5392
Restaurantes                                        4886
Servicios de Transporte y Viajes                    2860
Servicios Educativos                                1915
Otros Servicios                                     1536
Instituciones Financieras y Aseguradoras            1264
Licores                                             1164
Ventas y Servicios de Equipos Electricos            1045
Musica                                               942
Vida Nocturna                  

Con esta metrica, se obtienen valores similares al del termometro, con un poco de variación en algunas categorias. Esta metrica es la que será utilizada como la metrica final para determinar las preferencias de comercios.

# Exploración

## Variación entre Metricas

Según vimos, entre cada metrica existe una cantidad diferente de clientes en cada categoria. Analizamos esta variación para determinar la causa de estas diferencias.

In [39]:
datasets_top_n = {'Cantidad':top_n_comercios_cantidad,
                  'Recencia': top_n_comercios_recencia,
                  'Termometro':top_n_comercios_termometro,
                  'Valor':top_n_comercios_valor,
                  'RFM': top_n_comercios_rfm}
len(datasets_top_n)

5

In [40]:
def create_value_counts_dataframe(datasets):
    if len(categoria_comercio_interes) < 2:
        value_counts = list(datasets.values())[0][categoria_comercio_interes[0]].value_counts()
        cats = value_counts.index
        value_counts_df = pd.DataFrame({
            **{f"Preferencias_{k}":top_n[categoria_comercio_interes[0]].value_counts()[cats] for k,top_n in datasets.items()}
        })
        return value_counts_df
    else:
        value_counts = list(datasets.values())[0].groupby(categoria_comercio_interes[:2]
                                                         )['Cantidad'].count()
        cats = value_counts.index
        value_counts_df = pd.DataFrame({
            **{f"Preferencias_{k}":top_n.groupby(categoria_comercio_interes[:2]
                                                         )['Cantidad'].count()[cats] 
               for k,top_n in datasets.items()}
        })
        return value_counts_df

Agrupamos la cantidad de clientes por producto por categoria por metrica, para luego crear estadisticas con esta, como el promedio de clientes, la desviación estandar y  el porcentaje de variación por categoria.

In [41]:
value_counts_df = create_value_counts_dataframe(datasets_top_n)
value_counts_df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Preferencias_Cantidad,Preferencias_Recencia,Preferencias_Termometro,Preferencias_Valor,Preferencias_RFM
DESCRI_PRODUCTO,Categoria_Agrupada,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
CREDITO JOVEN,Articulos de Oficina,6,17,7.0,13,8
CREDITO JOVEN,Cine y Peliculas,59,58,43.0,32,31
CREDITO JOVEN,Comida Rapida,500,513,418.0,291,379
CREDITO JOVEN,Ferreterias y Hogar,87,105,91.0,123,101
CREDITO JOVEN,Gasolineras y Vehiculos,629,764,622.0,575,610


In [42]:
preferencias_counts_cols = [col for col in value_counts_df if 'Preferencias' in col]
value_counts_df['Promedio'] = value_counts_df[preferencias_counts_cols].mean(axis=1).astype(int)
value_counts_df['Desviacion'] = value_counts_df[preferencias_counts_cols].std(axis=1)
value_counts_df["Porcentaje_Variacion (%)"] = ((value_counts_df["Desviacion"] 
                                            / value_counts_df['Promedio'])* 100).round(2)
value_counts_df = value_counts_df.reset_index()

In [43]:
value_counts_df.head()

Unnamed: 0,DESCRI_PRODUCTO,Categoria_Agrupada,Preferencias_Cantidad,Preferencias_Recencia,Preferencias_Termometro,Preferencias_Valor,Preferencias_RFM,Promedio,Desviacion,Porcentaje_Variacion (%)
0,CREDITO JOVEN,Articulos de Oficina,6,17,7.0,13,8,10,4.658326,46.58
1,CREDITO JOVEN,Cine y Peliculas,59,58,43.0,32,31,44,13.538833,30.77
2,CREDITO JOVEN,Comida Rapida,500,513,418.0,291,379,420,91.343856,21.75
3,CREDITO JOVEN,Ferreterias y Hogar,87,105,91.0,123,101,101,14.099645,13.96
4,CREDITO JOVEN,Gasolineras y Vehiculos,629,764,622.0,575,610,640,72.363665,11.31


In [44]:
def bar_plotly(dataframe,dim,value,title,show_text=False):   
    sorted_dataframe = dataframe.sort_values(by=value,ascending=False)
    data = [go.Bar(
                y=sorted_dataframe[value],
                x=sorted_dataframe[dim],
                marker=dict(
                color='#1D62AE',
                line=dict(
                    color='#14A751',
                    width=1,
                )
            )
        )]
    
    if show_text:
        data = [go.Bar(
                y=sorted_dataframe[value],
                x=sorted_dataframe[dim],
                marker=dict(
                color='#1D62AE',
                line=dict(
                    color='#14A751',
                    width=1,
                )
            )
        )]

    layout = go.Layout(
        title=title,
        autosize=True,
         xaxis=dict(
            title=dim,
            titlefont=dict(
                family='Myriad',
                size=20,
                color='#14A751'
            ),
             showticklabels=show_text
        ),
         yaxis=dict(
            title=value,
            titlefont=dict(
                family='Myriad',
                size=20,
                color='#14A751'
            )
        )
    )
    fig = go.Figure(data=data, layout=layout)
    ipy(fig, config=plotly_config)

In [45]:
def create_grouping(data,groupby_cols,value_cols,new_cols,aggregation="sum"):
    grouped_data = data.groupby(groupby_cols)[value_cols].agg(aggregation).reset_index()
    grouped_data.columns = new_cols
    return grouped_data

def crear_estadisticas_value_counts(value_count_df,count_cols,grouping_col = "Categoria_Agrupada"):
    preferencias_total = value_count_df.groupby(grouping_col)[count_cols].sum()
    preferencias_total["Promedio"] = preferencias_total[count_cols].mean(axis=1)
    preferencias_total["Desviacion"] = preferencias_total[count_cols].std(axis=1)
    preferencias_total["Porcentaje_Variacion (%)"] = ((preferencias_total["Desviacion"] / preferencias_total["Promedio"]
                                                      ) * 100).round(2)
    return preferencias_total.reset_index()

In [46]:
producto_desviacion_promedio = create_grouping(value_counts_df,["DESCRI_PRODUCTO"]
                                               ,"Porcentaje_Variacion (%)"
                                               , ["DESCRI_PRODUCTO","mean_Porcentaje_Variacion (%)"] 
                                               ,["mean"])
producto_desviacion_promedio

Unnamed: 0,DESCRI_PRODUCTO,mean_Porcentaje_Variacion (%)
0,CREDITO JOVEN,17.567917
1,MULTICREDITO,10.220385
2,VISA CLASICA,13.256538
3,VISA EMPRESARIAL,29.720385
4,VISA INFINITE,27.616923
5,VISA ORO,17.51
6,VISA PLATINO,23.283846


A continuación, algunas graficas para ilustrar esta variación. Variación alta significa que para una metrica, una categoria tiene una cantidad de clientes mucho mayor/ mucho menor, usualmente por una diferencia alta en Cantidad o Monto.

In [47]:
bar_plotly(dataframe=producto_desviacion_promedio,dim="DESCRI_PRODUCTO",value="mean_Porcentaje_Variacion (%)"
           ,title="Variación de Preferencia Promedio por Producto",show_text=True)

In [48]:
categoria_value_counts = crear_estadisticas_value_counts(value_counts_df, preferencias_counts_cols
                                                         ,grouping_col = "Categoria_Agrupada")
categoria_value_counts.head()

Unnamed: 0,Categoria_Agrupada,Preferencias_Cantidad,Preferencias_Recencia,Preferencias_Termometro,Preferencias_Valor,Preferencias_RFM,Promedio,Desviacion,Porcentaje_Variacion (%)
0,Articulos de Oficina,284,405,293.0,351,270,320.6,56.367544,17.58
1,Cine y Peliculas,582,711,392.0,299,342,465.2,174.799027,37.58
2,Comida Rapida,8309,9467,6029.0,3675,5392,6574.4,2317.219411,35.25
3,Ferreterias y Hogar,5140,6014,5552.0,6457,5549,5742.4,505.213123,8.8
4,Gasolineras y Vehiculos,21833,24467,20813.0,19239,20657,21401.8,1946.824389,9.1


In [49]:
bar_plotly(dataframe=categoria_value_counts,dim="Categoria_Agrupada",value="Porcentaje_Variacion (%)"
           ,title="Variación de Preferencia por Categoria",show_text=True)

Las categorias de mayor variación son por altas cantidades o recencia y montos bajos, como *Cine y Peliculas*, *Comida Rapida*, o viceversa como *Servicios Educativos* y *Servicios de Construcción*.  Son más volatiles a la hora de determinar la preferencia, por esto se usa una combinación de las metricas.

## Promedio Preferencias por Categoria

A continuación, fueron creados algunos graficos para visualizar las preferencias por categoria y tipo de tarjeta. Las cantidades fueron determinadas según el promedio de cantidad de clientes entre metricas. Aunque no puede ser usado para preferencias puntuales a clientes, si pueden ser utilizados con fines de análisis.

In [50]:
bar_plotly(dataframe=categoria_value_counts,dim="Categoria_Agrupada",value="Promedio"
           ,title="Promedio de Preferencias de Clientes por Categoria",show_text=True)

Las categorias más populares son **Supermercados y Alimentos** y **Gasolineras y Vehiculos**. Estas categorias engloban necesidades del día a día de casi todo el mundo. Otra categorias populares son **Tienda De Venta Especializada** que captura las compras en línea como en Amazon y **Servicios de Salud, Belleza y Recreación** que incluye servicios de salud como clinicas, gimnasios, salones de belleza y más. Veamos estos promedios por tipo de tarjeta:

In [51]:
def bar_plotly_categoria_tipo_tarjeta(value_counts_df,tipo_tarjeta,plot_col,plot_title):
    count_tarjeta = value_counts_df.loc[value_counts_df.DESCRI_PRODUCTO == tipo_tarjeta]
    bar_plotly(dataframe=count_tarjeta,dim="Categoria_Agrupada",value=plot_col
           ,title=plot_title,show_text=True)

In [52]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"VISA CLASICA","Promedio"
                                  ,"Promedio de Preferencia por Categoria, Visa Clasica")

In [53]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"VISA ORO","Promedio"
                                  ,"Promedio de Preferencia por Categoria, Visa Oro")

In [54]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"VISA PLATINO","Promedio"
                                  ,"Promedio de Preferencia por Categoria, Visa Platino")

In [55]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"VISA INFINITE","Promedio"
                                  ,"Promedio de Preferencia por Categoria, Visa Infinite")

In [56]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"VISA EMPRESARIAL","Promedio"
                                  ,"Promedio de Preferencia por Categoria, Visa Empresarial")

In [57]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"CREDITO JOVEN","Promedio"
                                  ,"Promedio de Preferencia por Categoria, Credito Joven")

In [58]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"MULTICREDITO","Promedio"
                                  ,"Promedio de Preferencia por Categoria, Multicredito")

## Porcentaje de Pertenencia de Preferencias Por Categoria Por Tarjeta

Para distinguir mejor las diferencias entre tipos de tarjeta, tambien fue calculado el porcentaje de las preferencias de cada categoria por tipo de tarjeta. Esto ayuda a determinar categorias sobresalientes en cada tipo de tarjeta.

In [59]:
value_counts_df = value_counts_df.sort_values(by="Categoria_Agrupada").set_index("Categoria_Agrupada")
value_counts_categoria_total_promedio = value_counts_df.groupby("Categoria_Agrupada")["Promedio"].sum()
value_counts_categoria_total_promedio
value_counts_df["Porcentaje_Total_Categoria (%)"] = (value_counts_df["Promedio"] 
                                                              / value_counts_categoria_total_promedio * 100
                                                    ).round(2)
value_counts_df = value_counts_df.reset_index()
value_counts_df.head()

Unnamed: 0,Categoria_Agrupada,DESCRI_PRODUCTO,Preferencias_Cantidad,Preferencias_Recencia,Preferencias_Termometro,Preferencias_Valor,Preferencias_RFM,Promedio,Desviacion,Porcentaje_Variacion (%),Porcentaje_Total_Categoria (%)
0,Articulos de Oficina,CREDITO JOVEN,6,17,7.0,13,8,10,4.658326,46.58,3.14
1,Articulos de Oficina,VISA EMPRESARIAL,8,12,8.0,10,8,9,1.788854,19.88,2.83
2,Articulos de Oficina,VISA ORO,48,69,44.0,55,41,51,11.148991,21.86,16.04
3,Articulos de Oficina,VISA CLASICA,138,182,131.0,144,129,144,21.626373,15.02,45.28
4,Articulos de Oficina,VISA PLATINO,51,84,65.0,87,54,68,16.664333,24.51,21.38


In [60]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"VISA CLASICA","Porcentaje_Total_Categoria (%)"
                                  ,"Porcentaje de Pertenencia por Categoria, Visa Clasica")

In [61]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"VISA ORO","Porcentaje_Total_Categoria (%)"
                                  ,"Porcentaje de Pertenencia por Categoria, Visa Oro")

In [62]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"VISA PLATINO","Porcentaje_Total_Categoria (%)"
                                  ,"Porcentaje de Pertenencia por Categoria, Visa Platino")

In [63]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"VISA INFINITE","Porcentaje_Total_Categoria (%)"
                                  ,"Porcentaje de Pertenencia por Categoria, Visa Infinite")

In [64]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"VISA EMPRESARIAL","Porcentaje_Total_Categoria (%)"
                                  ,"Porcentaje de Pertenencia por Categoria, Visa Empresarial")

In [65]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"CREDITO JOVEN","Porcentaje_Total_Categoria (%)"
                                  ,"Porcentaje de Pertenencia por Categoria, Credito Joven")

In [66]:
bar_plotly_categoria_tipo_tarjeta(value_counts_df,"MULTICREDITO","Porcentaje_Total_Categoria (%)"
                                  ,"Porcentaje de Pertenencia por Categoria, Multicredito")

# Asignación de Preferencias por Cliente

Como fue mencionado anteriormente, se utilizó la metrica del RFM para determinar las categorias de comercio finales preferentes de un cliente. Esta vez, se ignora totalmente el tipo de producto, y se concentra totalmente en el cliente.

In [67]:
def conseguir_top_n_comercios_por_cliente_rfm(transacciones,
                                                   interes_group=["Codigo_Cliente","Categoria_Agrupada"]):
    transacciones_agrupadas = transacciones.groupby(interes_group)[valores_medida].sum().reset_index()
    transacciones_agrupadas['Recencia'] = transacciones.groupby(interes_group)['Recencia'].max().reset_index()['Recencia']
    transacciones_agrupadas['Score_RFM'] = crear_score_RFM(transacciones_agrupadas) 
    top_n_comercios_rfm = get_top_n_comercios_medida(transacciones_agrupadas,'Score_RFM')
    return top_n_comercios_rfm



In [68]:
identificador_group = ['Codigo_Cliente']
top_n_comercios_rfm_cliente = conseguir_top_n_comercios_por_cliente_rfm(transacciones)
qgrid_preferencias_cliente = qgrid.show_grid(top_n_comercios_rfm_cliente[['Codigo_Cliente','Categoria_Agrupada',
                                                                         'Score_RFM']])

In [69]:
qgrid_preferencias_cliente

QgridWidget(grid_options={'fullWidthRows': True, 'syncColumnCellResize': True, 'forceFitColumns': True, 'defau…

# Visualización RFM

Con los pesos de Recencia, Frecuencia y Valor Monetario de las categorias de comercio, procedimos a crear visualizaciones que mostraran, tanto para los comercios como para los clientes, su valor completo para el negocio según su transaccionalidad por tarjeta. Primero, RFM por categoria de Comercio.

In [70]:
rfm_stats = transacciones_agrupadas.groupby('Categoria_Agrupada'
                               )[['Cantidad_RFM','Valor_Monetario_RFM','Recencia']].mean()
rfm_stats['Cantidad_Clientes'] = top_n_comercios_rfm_cliente.groupby('Categoria_Agrupada'
                                                                    )['Codigo_Cliente'
                                                                     ].count()
rfm_stats['Cantidad_Clientes'] = rfm_stats['Cantidad_Clientes'].fillna(0)
rfm_stats = rfm_stats.reset_index()
rfm_stats.head()

Unnamed: 0,Categoria_Agrupada,Cantidad_RFM,Valor_Monetario_RFM,Recencia,Cantidad_Clientes
0,Alquiler de Automoviles,1.0,7.444444,5.111111,0.0
1,Articulos de Oficina,2.083564,5.234116,6.54489,250.0
2,Cine y Peliculas,1.693889,2.51028,6.092233,320.0
3,Comida Rapida,2.388207,3.512179,7.142344,5115.0
4,Ferreterias y Hogar,1.967926,5.834505,6.84051,5226.0


In [71]:
rfm_stats['Texto_Plot'] = ("Categoria:" + rfm_stats['Categoria_Agrupada'].astype(str) + "<br>" + 
                           "RFM Cantidad:" + rfm_stats['Cantidad_RFM'].round(2).astype(str)  + "<br>" + 
                           "RFM Recencia:" + rfm_stats['Recencia'].round(2).astype(str)  + "<br>" + 
                           "RFM Valor Monetario:" + rfm_stats['Valor_Monetario_RFM'].round(2).astype(str)  + "<br>" + 
                           "Clientes:" + rfm_stats['Cantidad_Clientes'].astype(int).astype(str))
rfm_stats.head()

Unnamed: 0,Categoria_Agrupada,Cantidad_RFM,Valor_Monetario_RFM,Recencia,Cantidad_Clientes,Texto_Plot
0,Alquiler de Automoviles,1.0,7.444444,5.111111,0.0,Categoria:Alquiler de Automoviles<br>RFM Canti...
1,Articulos de Oficina,2.083564,5.234116,6.54489,250.0,Categoria:Articulos de Oficina<br>RFM Cantidad...
2,Cine y Peliculas,1.693889,2.51028,6.092233,320.0,Categoria:Cine y Peliculas<br>RFM Cantidad:1.6...
3,Comida Rapida,2.388207,3.512179,7.142344,5115.0,Categoria:Comida Rapida<br>RFM Cantidad:2.39<b...
4,Ferreterias y Hogar,1.967926,5.834505,6.84051,5226.0,Categoria:Ferreterias y Hogar<br>RFM Cantidad:...


In [72]:
def crear_scatter_RFM(data,title,size=None):
    trace1 = go.Scatter(
    x= data.Cantidad_RFM,
    y = data.Recencia,
    mode='markers',
    text=data.Texto_Plot,
    marker=dict(
        size=  np.log1p(data[size]) * 4 if size else 16,
        color = data.Valor_Monetario_RFM, 
        colorbar=dict(
                title='RFM Valor Monetario'
            ),
        colorscale='Viridis',
        showscale=True
        )
    )

    layout = go.Layout(
            title=title,
        hovermode = 'closest',
            autosize=True,
            
             xaxis=dict(
                title="RFM Cantidad",
                titlefont=dict(
                    family='Myriad',
                    size=20,
                    color='#14A751'
                ),
            ),
             yaxis=dict(
                 title="RFM Recencia",
                titlefont=dict(
                    family='Myriad',
                    size=20,
                    color='#14A751'
                )
            )
        )

    data = [trace1]
    fig = go.Figure(data=data, layout=layout)
    ipy(fig)

**Nota**: En estos graficos, el eje horizontal representa la cantidad de transacciones pero reducida a su valor RFM, y el eje vertical representa la recencia, mientras más alto más reciente fue la última transacción. Los colores representan el valor monetario, mientras más intenso, mayor monto promedio fue transaccionado. Por último, el tamaño de las burbujas representa la cantidad de clientes que caen en esta categoria.

In [73]:
crear_scatter_RFM(rfm_stats,"RFM por Categoria de Comercio",size='Cantidad_Clientes')

Como podemos observar, existe una relación entre las 3 metricas, en el que la mayoria de las veces, cuando una aumenta las otras tambien. Por ejemplo, la categoria de **Supermercados y Alimentos** tiene un valor monetario, recencia y frecuencia altos. Pero, esta relación no es totalmente lineal, como en la categoria de **Instituciones Financieras** con alto valor monetario y Recencia, pero cantidad baja. **En sí, se puede visualizar una relación lineal entre las metricas, siendo las categorias de comercio más comunes las de más alto valor RFM**.

Ahora visualicemos lo mismo, pero ahora según la cantidad de clientes que caen en una combinación de Recencia y Frecuencia de RFM.

In [74]:
transacciones_agrupadas_cliente = transacciones.groupby('Codigo_Cliente')[['Cantidad','Valor_Total_RD']].sum()
transacciones_agrupadas_cliente['Recencia'] = transacciones.groupby('Codigo_Cliente')['Meses_Anteriores'].min()
transacciones_agrupadas_cliente.head()

Unnamed: 0_level_0,Cantidad,Valor_Total_RD,Recencia
Codigo_Cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,342,30732700.78,0
10,26,37153.65,0
22,39,72465.93,1
51,82,136687.69,0
59,192,427132.23,0


In [75]:
transacciones_agrupadas_cliente['Cantidad_RFM'] = pd.qcut(transacciones_agrupadas_cliente.Cantidad,5,
                                                         labels=list(range(1,6))).astype(int)
transacciones_agrupadas_cliente['Valor_Monetario_RFM'] = pd.qcut(transacciones_agrupadas_cliente.Valor_Total_RD,5,
                                                         labels=list(range(1,6))).astype(int)

transacciones_agrupadas_cliente['Recencia'] = pd.cut(transacciones_agrupadas_cliente.Recencia
                                                     ,[-0.01,1,3,6,9,12],labels=list(range(5,0,-1))).astype(int)

transacciones_agrupadas_cliente['Score_RFM'] = transacciones_agrupadas_cliente[['Recencia'
                                                                                ,'Cantidad_RFM'
                                                                                ,'Valor_Monetario_RFM']].mean(axis=1)
transacciones_agrupadas_cliente=transacciones_agrupadas_cliente.reset_index()
transacciones_agrupadas_cliente.head()

Unnamed: 0,Codigo_Cliente,Cantidad,Valor_Total_RD,Recencia,Cantidad_RFM,Valor_Monetario_RFM,Score_RFM
0,1,342,30732700.78,5,5,5,5.0
1,10,26,37153.65,5,4,4,4.333333
2,22,39,72465.93,5,5,4,4.666667
3,51,82,136687.69,5,5,5,5.0
4,59,192,427132.23,5,5,5,5.0


In [76]:
transacciones_agrupadas_RFM = transacciones_agrupadas_cliente.groupby(
        ['Recencia','Cantidad_RFM'])['Valor_Monetario_RFM'].mean().reset_index()
transacciones_agrupadas_RFM['Cantidad_Clientes'] = transacciones_agrupadas_cliente.groupby(
        ['Recencia','Cantidad_RFM'])['Codigo_Cliente'].count().reset_index()['Codigo_Cliente']
transacciones_agrupadas_RFM = transacciones_agrupadas_RFM.rename(columns={'Codigo_Cliente':'Cantidad_Clientes'})
transacciones_agrupadas_RFM.head()

Unnamed: 0,Recencia,Cantidad_RFM,Valor_Monetario_RFM,Cantidad_Clientes
0,1,1,1.268866,2001
1,1,2,1.994398,357
2,1,3,2.868852,122
3,1,4,3.777778,54
4,1,5,4.285714,7


In [77]:
transacciones_agrupadas_RFM['Texto_Plot'] = (
                           "RFM Cantidad:" + transacciones_agrupadas_RFM['Cantidad_RFM'].round(2).astype(str)  + "<br>" + 
                           "RFM Recencia:" + transacciones_agrupadas_RFM['Recencia'].round(2).astype(str)  + "<br>" + 
                           "RFM Valor Monetario Promedio:" + transacciones_agrupadas_RFM['Valor_Monetario_RFM'
                                                                                   ].round(2).astype(str) + "<br>" + 
                           "Cantidad Clientes:" + transacciones_agrupadas_RFM['Cantidad_Clientes'].astype(str) 
)
transacciones_agrupadas_RFM.head()

Unnamed: 0,Recencia,Cantidad_RFM,Valor_Monetario_RFM,Cantidad_Clientes,Texto_Plot
0,1,1,1.268866,2001,RFM Cantidad:1<br>RFM Recencia:1<br>RFM Valor ...
1,1,2,1.994398,357,RFM Cantidad:2<br>RFM Recencia:1<br>RFM Valor ...
2,1,3,2.868852,122,RFM Cantidad:3<br>RFM Recencia:1<br>RFM Valor ...
3,1,4,3.777778,54,RFM Cantidad:4<br>RFM Recencia:1<br>RFM Valor ...
4,1,5,4.285714,7,RFM Cantidad:5<br>RFM Recencia:1<br>RFM Valor ...


In [78]:
crear_scatter_RFM(transacciones_agrupadas_RFM,"RFM por Cliente", size='Cantidad_Clientes')

Para los clientes, se puede apreciar que la mayoría caen en segmentos donde su transacción más reciente fue en el ultimo mes, por lo tanto son usuarios activos de la tarjeta. Sin embargo, una gran parte de los clientes (aproximadamente 10,000), tienen una cantidad y valor monetario bajos en su tarjeta. Por otro lado, hay un número de clientes (aproximadamente 1,500) con un nivel bueno de transaccionalidad pero baja recencia, que pueden ser "rescatados". **Esta gráfica nos ayuda a visualizar a los clientes de TC según segmentos de uso de la misma!**

## Exploración de Clientes

A continuación, se calcularon las top 3 categorias de comercio preferentes por cliente, utilizando la metrica del RFM, y se realizó un análisis según caracteristicas de los clientes. Primero, el listado de preferencias por cliente.

In [79]:
data_clientes_bsc = pd.read_csv("data/data_clientes_bsc.csv")
data_clientes_bsc.head()

Unnamed: 0,Codigo_Cliente,Tipo_De_Persona,Segmento,Edad,Zona,Sexo,Limite_TC
0,10.0,N,Clasico,36.0,Norte,F,50000.0
1,22.0,N,Emergente,54.0,Metropolitana,F,84000.0
2,51.0,N,Clasico,56.0,Norte,F,72000.0
3,59.0,N,Preferencial,49.0,Norte,M,100000.0
4,60.0,N,Emergente,57.0,Norte,M,248000.0


In [80]:
preferencias_clientes_full = top_n_comercios_rfm_cliente.merge(data_clientes_bsc,how='left')
preferencias_clientes_qgrid = qgrid.show_grid(preferencias_clientes_full[['Codigo_Cliente','Categoria_Agrupada',
                                                          'Score_RFM','Cantidad','Valor_Total_RD',
                                                          'Segmento','Sexo','Edad']])
preferencias_clientes_full.head()

Unnamed: 0,Codigo_Cliente,Categoria_Agrupada,Cantidad,Valor_Total_RD,Recencia,Cantidad_RFM,Valor_Monetario_RFM,Score_RFM,Tipo_De_Persona,Segmento,Edad,Zona,Sexo,Limite_TC
0,1,Servicios Gubernamentales,36,11993702.97,10,8,10,9.333333,,,,,,
1,1,Otros Servicios,31,925618.83,10,8,10,9.333333,,,,,,
2,1,"Servicios de Comunicacion, Internet y Telecable",104,14825500.03,10,10,10,10.0,,,,,,
3,10,Supermercados y Alimentos,10,11543.46,10,5,8,7.666667,N,Clasico,36.0,Norte,F,50000.0
4,10,Ropas,2,3622.5,10,2,6,6.0,N,Clasico,36.0,Norte,F,50000.0


In [81]:
preferencias_clientes_qgrid

QgridWidget(grid_options={'fullWidthRows': True, 'syncColumnCellResize': True, 'forceFitColumns': True, 'defau…

Luego, procedimos a crear visualizaciones que ilustraran las diferencias de preferencias entre distintos tipos de clientes.

#### Edad Mediana por Categoria de Comercio

In [82]:
edad_mediana_por_categoria = create_grouping(preferencias_clientes_full,["Categoria_Agrupada"],["Edad"]
                ,["Categoria_Agrupada","Edad_Promedio"],aggregation="median")

In [83]:
bar_plotly(dataframe=edad_mediana_por_categoria,dim="Categoria_Agrupada",value="Edad_Promedio"
           ,title="Edad Mediana Por Categoria",show_text=True)

Concerniente a la edad, en los jovenes se nota una enorme preferencia en **Entretenimiento**, **Tecnología**, **Vida Nocturna** y **Compras en Línea**; los clientes más mayores, prefieren servicios para mejorar su futuro, tales como **Inversiones en Tierra y Ganado**, **Servicios del Gobierno** y de **Instituciones Financieras** y tambien **Construcción** y el **Hogar**.

Ahora veamos una distribución según subsegmento de edad (18 a 27: Joven, 28 a 59 Adulto, 60 en Adelante Senior)

In [84]:
def stacked_bar_plotly(dataframe,dim,group,value,title):   
    sorted_dataframe = dataframe.sort_values(by=value,ascending=False)
    data = list()
    group_values = dataframe[group].unique()
    for group_name in group_values:
        group_data = sorted_dataframe.loc[sorted_dataframe[group] == group_name]
        data.append(go.Bar(
                    y=group_data[value],
                    x=group_data[dim],
                    name=group_name
                )
            )
    

    layout = go.Layout(
        title=title,
        autosize=True,
        barmode='stack',
         xaxis=dict(
            title=dim,
            titlefont=dict(
                family='Myriad',
                size=20,
                color='#14A751'
            ),
        ),
         yaxis=dict(
            title=value,
            titlefont=dict(
                family='Myriad',
                size=20,
                color='#14A751'
            )
        )
    )
    fig = go.Figure(data=data, layout=layout)
    ipy(fig, config=plotly_config)

In [85]:
def create_count_percentage_by_group(dataframe, groupby_cols,count_col
                                     ,new_cols):
    count_data = dataframe.groupby(groupby_cols)[count_col].count()
    percentage_data = count_data.groupby(level=0).apply(lambda x: 100 * x / x.sum()).reset_index()
    percentage_data.columns = new_cols
    return percentage_data

In [86]:
preferencias_clientes_full["Microsegmento_Edad"] = pd.cut(preferencias_clientes_full.Edad
                                                          ,[18,28,59,999],labels=["Joven","Adulto","Senior"])
pct_preferencias_edad = create_count_percentage_by_group(preferencias_clientes_full
                                              ,["Categoria_Agrupada","Microsegmento_Edad"],["Codigo_Cliente"]
                ,["Categoria_Agrupada","Microsegmento_Edad","Porcentaje_Clientes (%)"])

pct_preferencias_edad.head()

Unnamed: 0,Categoria_Agrupada,Microsegmento_Edad,Porcentaje_Clientes (%)
0,Articulos de Oficina,Joven,15.57377
1,Articulos de Oficina,Adulto,72.131148
2,Articulos de Oficina,Senior,12.295082
3,Cine y Peliculas,Joven,32.915361
4,Cine y Peliculas,Adulto,65.830721


**Nota:** en los siguientes graficos de barra, el eje vertical representa el porcentaje de clientes, sumando a un 100% siempre. Los colores representan las categorias de interes. Se puede hacer doble clic en una categoriar para filtrar el gráfico por la misma. Esto representaría el porcentaje de una categoria según el filtro, no necesariamente que esta categoria domina al filtro.

In [87]:
stacked_bar_plotly(pct_preferencias_edad,"Categoria_Agrupada","Microsegmento_Edad"
                   ,"Porcentaje_Clientes (%)","Preferencias por Categoria por Microsegmento Edad")

Se pueden apreciar las diferencias entre las categorias por los segmentos de edad donde: 

- Las categorias de Entretenimiento, Comida Rapida, Educación y Tecnología tienen mayor captación entre los jovenes.

- El Cuidado del Hogar y Supermercados, los Viajes y Restaurantes tienen mayor captación entre los adultos.

- Las Instituciones Financieras, y Servicios para Empresas (Gubernamentales, Articulos de Oficina) tienen mayor captación entre los senior.

In [88]:
pct_edad_preferencias = create_count_percentage_by_group(preferencias_clientes_full
                                              ,["Microsegmento_Edad","Categoria_Agrupada"],["Codigo_Cliente"]
                ,["Microsegmento_Edad","Categoria_Agrupada","Porcentaje_Clientes (%)"])

pct_edad_preferencias.head()

Unnamed: 0,Microsegmento_Edad,Categoria_Agrupada,Porcentaje_Clientes (%)
0,Joven,Articulos de Oficina,0.203677
1,Joven,Cine y Peliculas,0.562791
2,Joven,Comida Rapida,7.750442
3,Joven,Ferreterias y Hogar,2.208286
4,Joven,Gasolineras y Vehiculos,14.166265


**Nota:** En este gráfico, y otros similares a continuación, el eje horizontal representa una dimensión de interes (ejemplo Edad) y los colores representan las categorias de comercio. Su intención es poner más enfasis en la dimensión y las diferencias entre las categorias de comercios. Es recomendado hacer doble clic en una categoria de comercio y explorarla. 

In [89]:
stacked_bar_plotly(pct_edad_preferencias,"Microsegmento_Edad","Categoria_Agrupada"
                   ,"Porcentaje_Clientes (%)","Preferencias por Microsegmento de Edad por Categoria")

Al explorar el gráfico, se pueden apreciar las diferencias entre los segmentos de edad donde: 

- Los Jovenes prefieren el entretenimiento y comida, pero tambien la educación y tecnología.
- Los Adultos tienen preferencias variadas, pero existe mayor presencia en categorias del hogar y el dia a dia como gasolineras y supermercados.
- Los Senior prefieren seguridad y progreso en sus emprendimientos, con categorias como Instituciones Financieras, Servicios, y tambien actividades de retiro como Viajes.

#### Segmento

In [90]:
pct_preferencias_segmento = create_count_percentage_by_group(preferencias_clientes_full
                                              ,["Categoria_Agrupada","Segmento"],["Codigo_Cliente"]
                ,["Categoria_Agrupada","Segmento","Porcentaje_Clientes (%)"])

pct_preferencias_segmento.head()

Unnamed: 0,Categoria_Agrupada,Segmento,Porcentaje_Clientes (%)
0,Articulos de Oficina,Clasico,33.606557
1,Articulos de Oficina,Emergente,33.196721
2,Articulos de Oficina,Mi_Negocio,7.377049
3,Articulos de Oficina,Preferencial,16.803279
4,Articulos de Oficina,Prestige,9.016393


In [91]:
stacked_bar_plotly(pct_preferencias_segmento,"Categoria_Agrupada","Segmento"
                   ,"Porcentaje_Clientes (%)","Preferencias por Categoria por Segmento")

Se pueden apreciar las diferencias entre los segmentos donde: 

- Las categorias de Entretenimiento, y Compras de Bienes tienen auge en los segmentos más bajos.

- Los categorias de Servicios, Restaurantes y Vacaciones son más populares en los segmentos de renta altos.


In [92]:
pct_segmento_preferencias = create_count_percentage_by_group(preferencias_clientes_full
                                              ,["Segmento","Categoria_Agrupada"],["Codigo_Cliente"]
                ,["Segmento","Categoria_Agrupada","Porcentaje_Clientes (%)"])

pct_segmento_preferencias.head()

Unnamed: 0,Segmento,Categoria_Agrupada,Porcentaje_Clientes (%)
0,Clasico,Articulos de Oficina,0.150189
1,Clasico,Cine y Peliculas,0.357156
2,Clasico,Comida Rapida,4.55328
3,Clasico,Ferreterias y Hogar,3.534928
4,Clasico,Gasolineras y Vehiculos,14.595773


In [93]:
stacked_bar_plotly(pct_segmento_preferencias,"Segmento","Categoria_Agrupada"
                   ,"Porcentaje_Clientes (%)","Preferencias por Segmento por Categoria")

Al analizarlo por segmento, se notan diferencias interesantes, algunas como:

- Los Licores son preferidos por segmentos altos, pero la vida nocturna por los segmentos bajos.
- Los Servicios comunes (telefono, agua, internet,luz), son más comunes en los segmentos bajos.
- Las compras en linea son dominadas por los Emergentes.


#### Limite de TC 

In [94]:
preferencias_clientes_full["Rango_Limite_TC"] = pd.cut(preferencias_clientes_full.Limite_TC
                                                          ,[0,25000,50000,100000,200000,500000,10000000]
                                                      ,labels=["0 a 25k","25k a 50k","50k a 100k","100k a 200k",
                                                              "200k a 500k","500k en adelante"])
pct_preferencias_limite = create_count_percentage_by_group(preferencias_clientes_full
                                              ,["Categoria_Agrupada","Rango_Limite_TC"],["Codigo_Cliente"]
                ,["Categoria_Agrupada","Rango_Limite_TC","Porcentaje_Clientes (%)"])

pct_preferencias_limite.head()

Unnamed: 0,Categoria_Agrupada,Rango_Limite_TC,Porcentaje_Clientes (%)
0,Articulos de Oficina,0 a 25k,27.459016
1,Articulos de Oficina,25k a 50k,27.868852
2,Articulos de Oficina,50k a 100k,13.114754
3,Articulos de Oficina,100k a 200k,12.704918
4,Articulos de Oficina,200k a 500k,13.114754


In [95]:
stacked_bar_plotly(pct_preferencias_limite,"Categoria_Agrupada","Rango_Limite_TC"
                   ,"Porcentaje_Clientes (%)","Preferencias por Categoria por Rango de Limite")

Con el limite de TC, se ven preferencias similares a las encontradas en los segmentos. Esto tiene sentido, ya que el poder adquisitivo economico está relacionado al limite otorgado en las tarjetas.

#### Sexo

In [96]:
pct_preferencias_sexo = create_count_percentage_by_group(preferencias_clientes_full
                                              ,["Categoria_Agrupada","Sexo"],["Codigo_Cliente"]
                ,["Categoria_Agrupada","Sexo","Porcentaje_Clientes (%)"])

pct_preferencias_sexo.head()

Unnamed: 0,Categoria_Agrupada,Sexo,Porcentaje_Clientes (%)
0,Articulos de Oficina,F,41.393443
1,Articulos de Oficina,M,58.606557
2,Cine y Peliculas,F,35.423197
3,Cine y Peliculas,M,64.576803
4,Comida Rapida,F,40.38084


In [97]:
stacked_bar_plotly(pct_preferencias_sexo,"Categoria_Agrupada","Sexo"
                   ,"Porcentaje_Clientes (%)","Preferencias por Categoria por Sexo")

Al analizar por Sexo, se notan las siguientes observaciones: 

- Las categorias de Ropas y Salud,Belleza y Recreación son preferidas por las mujeres.
- La Vida Nocturna, Licores y Vehiculos son preferidas por los hombres.
- Existe parecido en ambos sexos para las categorias de Educación, Supermercados, Comida Rapida, Finanzas entre otros.

Cabe destacar que algunas categorias como Restaurantes, Hoteles, y Viajes, aunque sean dominadas por hombres, la naturaleza del hombre invitar a las mujeres en actividades como esa, sesga los resultados hacia el sexo masculino.

#### Zona

In [98]:
pct_preferencias_zona = create_count_percentage_by_group(preferencias_clientes_full
                                              ,["Categoria_Agrupada","Zona"],["Codigo_Cliente"]
                ,["Categoria_Agrupada","Zona","Porcentaje_Clientes (%)"])

pct_preferencias_zona.head()

Unnamed: 0,Categoria_Agrupada,Zona,Porcentaje_Clientes (%)
0,Articulos de Oficina,Metropolitana,70.081967
1,Articulos de Oficina,Norte,29.918033
2,Cine y Peliculas,Metropolitana,76.489028
3,Cine y Peliculas,Norte,23.510972
4,Comida Rapida,Metropolitana,72.18296


In [99]:
stacked_bar_plotly(pct_preferencias_zona,"Categoria_Agrupada","Zona"
                   ,"Porcentaje_Clientes (%)","Preferencias por Categoria por Zona")

Por Zona, se puede apreciar lo siguiente: 

- Mayor presencia de las categorias de Construcción, Cine, Delivery y Comida Rapida en la zona Metro.
- Mayor presencia de las categorias de Equipos Electricos y Agropecuarios en la zona Norte.
- Igual presencia en las demás, con un poco más de peso en la zona Metro.

# Inclusión en Vista 360

Las preferencias de comercios serán incluidas en la aplicación de Vista 360. El calculo será realizado utilizando las transacciones de un cliente en el ultimo año, y utilizando el calculo del RFM. Los rangos de las variables (ejemplo la Cantidad) para los score de RFM serán guardados y leidos a la hora de crear las preferencias. 

Las preferencias serán mostradas en el perfil del cliente, en la columna preferencias. Tendrán iconos según la preferencia calculada. 

![title](http://react.rocks/images/converted/react-evil-icons.jpg)

# Conclusiones y Posibles Mejoras

Pudimos determinar las preferencias de comercios de clientes según las categorias de comercios que frecuentan. Utilizamos varias metodologias para determinarlas, y analizamos las diferencias que trae usar una sobre otra. Al final, utilizamos una que combina la recencia, frecuencia y valor monetario de las transacciones del cliente, para tener un valor más certero.

Algunas posibles mejoras: 

- Añadir datos de transacciones con tarjeta de debito. No todos usan exclusivamente su tarjeta de crédito.
- Añadir un "peso categorico" que asigna menos valor a categorias muy comunes (es decir habría menos peso de preferencia para Supermercados y Gasolineras).
- Hacer un análisis más profundo de las categorias agrupadas, añadiendo nuevas y agrupando más categorias similares.

# *FIN*