<a href="https://colab.research.google.com/github/RolandoOrtizB/Bootcamp/blob/main/Proyecto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

# IMPORTANT: RUN THIS CELL IN ORDER TO IMPORT YOUR KAGGLE DATA SOURCES
# TO THE CORRECT LOCATION (/kaggle/input) IN YOUR NOTEBOOK,
# THEN FEEL FREE TO DELETE THIS CELL.
# NOTE: THIS NOTEBOOK ENVIRONMENT DIFFERS FROM KAGGLE'S PYTHON
# ENVIRONMENT SO THERE MAY BE MISSING LIBRARIES USED BY YOUR
# NOTEBOOK.

import os
import sys
from tempfile import NamedTemporaryFile
from urllib.request import urlopen
from urllib.parse import unquote, urlparse
from urllib.error import HTTPError
from zipfile import ZipFile
import tarfile
import shutil

CHUNK_SIZE = 40960
DATA_SOURCE_MAPPING = 'proyecto-3-segmentacin-de-clientes-en-ecommerce:https%3A%2F%2Fstorage.googleapis.com%2Fkaggle-data-sets%2F1866450%2F3167330%2Fbundle%2Farchive.zip%3FX-Goog-Algorithm%3DGOOG4-RSA-SHA256%26X-Goog-Credential%3Dgcp-kaggle-com%2540kaggle-161607.iam.gserviceaccount.com%252F20240521%252Fauto%252Fstorage%252Fgoog4_request%26X-Goog-Date%3D20240521T015304Z%26X-Goog-Expires%3D259200%26X-Goog-SignedHeaders%3Dhost%26X-Goog-Signature%3D1793ad2d9fd58e2470dcf223774c6017bed512ddb1eb0600c12abb97e791b7ce2f9095987625d27e8c8383eac8201e559d2450befa3be310505de34063f845798a7fee21004c483a741a1b8e3e0e7a07e8769d5a418a968bd6006b758531aaad3e6190eea37b177bcbd928a521017dbcfce7a106ccd5da87fd1c96d4302e1f9ba001a65525617ab602889a5f10d2cbb40f48337584caf66d185fc16a8af0e62699b5a3c7a8de87c48a42c67adf7e73c2ed9a2757b8acaaae0793d5a722cb6be78d193e4656a9ff760dd93be89c1393ad3170a8ccaa61836dc789519f44e8abc76743c6f528d8d4159448ce19453573d17dddfbd140c1adc9de4f67da23f0ce74'

KAGGLE_INPUT_PATH='/kaggle/input'
KAGGLE_WORKING_PATH='/kaggle/working'
KAGGLE_SYMLINK='kaggle'

!umount /kaggle/input/ 2> /dev/null
shutil.rmtree('/kaggle/input', ignore_errors=True)
os.makedirs(KAGGLE_INPUT_PATH, 0o777, exist_ok=True)
os.makedirs(KAGGLE_WORKING_PATH, 0o777, exist_ok=True)

try:
  os.symlink(KAGGLE_INPUT_PATH, os.path.join("..", 'input'), target_is_directory=True)
except FileExistsError:
  pass
try:
  os.symlink(KAGGLE_WORKING_PATH, os.path.join("..", 'working'), target_is_directory=True)
except FileExistsError:
  pass

for data_source_mapping in DATA_SOURCE_MAPPING.split(','):
    directory, download_url_encoded = data_source_mapping.split(':')
    download_url = unquote(download_url_encoded)
    filename = urlparse(download_url).path
    destination_path = os.path.join(KAGGLE_INPUT_PATH, directory)
    try:
        with urlopen(download_url) as fileres, NamedTemporaryFile() as tfile:
            total_length = fileres.headers['content-length']
            print(f'Downloading {directory}, {total_length} bytes compressed')
            dl = 0
            data = fileres.read(CHUNK_SIZE)
            while len(data) > 0:
                dl += len(data)
                tfile.write(data)
                done = int(50 * dl / int(total_length))
                sys.stdout.write(f"\r[{'=' * done}{' ' * (50-done)}] {dl} bytes downloaded")
                sys.stdout.flush()
                data = fileres.read(CHUNK_SIZE)
            if filename.endswith('.zip'):
              with ZipFile(tfile) as zfile:
                zfile.extractall(destination_path)
            else:
              with tarfile.open(tfile.name) as tarfile:
                tarfile.extractall(destination_path)
            print(f'\nDownloaded and uncompressed: {directory}')
    except HTTPError as e:
        print(f'Failed to load (likely expired) {download_url} to path {destination_path}')
        continue
    except OSError as e:
        print(f'Failed to load {download_url} to path {destination_path}')
        continue

print('Data source import complete.')


# 1. Contexto

En este proyecto simular√°s ser parte del equipo de una consultora estrat√©gica enfocada en Business Intelligence. Utilizando datos hist√≥ricos de una empresa de ventas al por mayor deber√°s hacer un an√°lisis completo que incluya:

- **Pre-procesamiento de los datos:** revisar la calidad de la base de datos, eliminar datos duplicados que no tengan sentido, encontrar datos faltantes y reemplazarlos/eliminarlos, y buscar datos que no correspondan (por ej n√∫meros negativos en columnas que generalmente son n√∫meros positivos). El pre-procesamiento de los datos es un paso fundamental y b√°sico de todo an√°lisis de datos.
- **An√°lisis exploratorio**: utilizando una herramienta de visualizaci√≥n como Google Data Studio deber√°s graficar, resumir y estructurar la informaci√≥n m√°s relevante para poder. La idea es poder mostrar visualmente las caracter√≠sticas principales del dataset, con un enfoque en m√©tricas de venta como las que enlista tu jefe en el brief.
- **An√°lisis por cohorte**: esta herramienta ya la conoces. Deber√°s aplicar un an√°lisis por cohorte para los clientes de UK y para los extranjeros para ver cu√°l de los dos p√∫blicos son clientes m√°s leales.
- **Segmentaci√≥n de clientes**: finalmente, tendr√°s que hacer una segmentaci√≥n de los clientes bas√°ndote en tres caracter√≠sticas: Recencia, Frecuencia y Monto.

Es un an√°lisis bien completo que te permitir√° hacer algunas recomendaciones a UK Merch para que aprovechen de mejor manera sus recursos.

> *‚ÄúLas empresas capaces de utilizar los datos de los clientes para comprender mejor c√≥mo piensan, sienten y toman decisiones de compra, tienen una ventaja.‚Äù*

¬°Vamos por el dataset! üë©‚Äçüíª

---

# 2. Importar, entender el dataset y limpiar los datos

Para este proyecto contamos con un archivo .csv en el [dataset de Kaggle](https://www.kaggle.com/datacertlaboratoria/proyecto-3-segmentacin-de-clientes-en-ecommerce). Antes de importarlo a Google Sheets te recomiendo que aproveches el visor de datos (Data Explorer) de Kaggle para revisar a modo general la estructura de los datos.

![image.png](https://drive.google.com/uc?export=view&id=1zd2u52tyhgOLSB4NEgHBKrcAs6jwq-64)

Al importarlo en Google Sheet y mirar la primera fila podemos interpretar ese registro de la siguiente forma: el cliente 15528 de United Kingdom hizo una compra el 30 de marzo del 2021 a las 4:14PM por un monto de 229.33 libras esterlinas que incluye 123 productos, y que gener√≥ la factura cuyo n√∫mero es el 548370.

> **‚ö†Ô∏è Importante**: si al importar los datos la columna de monto no te aparece con formato como n√∫mero sino texto, prueba yendo a Archivo > Configuraci√≥n y cambiando la configuraci√≥n regional a Estados Unidos. El problema es que en la configuraci√≥n latinoamericana muchas veces se confunde entre punto y coma como separador de miles o decimales. Al hacer el cambio y luego poniendo el formato de los datos como n√∫mero o moneda deber√≠a solucionarse el problema.

Ahora que tenemos nuestros datos importados y entendemos a modo general la estructura de los datos comenzamos con la limpieza (o pre-procesamiento) de los datos.

### 2.1 Detecci√≥n de nulos o vac√≠os

Despu√©s de revisar con mayor detalle las variables que se tiene en el dataset, es posible que este contenga ciertos registros vac√≠os o nulos, estos datos podr√≠an ensuciar tu an√°lisis. Para eso te recomendamos seleccionar cada columna y hacer uso de la opci√≥n **‚ÄúFiltros‚Äù** en cada una de ellas, dejando solo los valores vac√≠os (o Blanks).

![image.png](https://drive.google.com/uc?export=view&id=1FqucNEw0BD2WPIF0PvtmbZnuwqz9vr_c)

> üë©‚Äçüíª Una manera r√°pida de diagnosticar si el dataset tiene valores vac√≠os es usar la funci√≥n ‚Äú=CONTAR.BLANCO()‚Äù o "=COUNTBLANK()". Esta funci√≥n recorre cada valor del rango y cuenta la cantidad de registros vac√≠os que encuentra.

Revisa columna por columna con la funci√≥n de filtro o aplica la f√≥rmula que cuenta los blancos en cada columna para encontrar valores vac√≠os. Luego reflexiona: esos valores vac√≠os que encontraste, ¬øafectar√°n a tu an√°lisis? ¬øes mejor dejarlos o borrarlos? Esta decisi√≥n depende de cada situaci√≥n. Si para este proyecto es de suma importancia que esos valores no est√©n vac√≠os (porque de otra forma ensuciar√°n el resultado) entonces puedes borrar esos registros (toda la fila). Si no afectan el an√°lisis, los puedes dejar.

### 2.2 Detecci√≥n y eliminaci√≥n de duplicados

Algunas veces los usuarios cometen errores al registrar la informaci√≥n. Un error muy com√∫n es que un registro est√© duplicado.

Hay que entender bien cu√°ndo un dato duplicado es err√≥neo. Para nuestro caso s√≠ encontramos m√°s de una fila que tenga el mismo monto o la misma cantidad, no ser√≠a un error. Solo significar√≠a que en momentos distintos, usuarios distintos han comprado la misma cantidad o han gastado el mismo monto. Eso es muy com√∫n que suceda.

Lo que no deber√≠a suceder en este caso es que tengamos dos veces la misma factura. Como se supone que cada factura tiene un valor √∫nico, entonces si encontramos otra fila con el mismo n√∫mero de factura deber√≠amos borrar el duplicado.

Para eliminar duplicados puedes ocupar la funci√≥n de Quitar duplicados (Datos > Borrado de datos > Quitar duplicados). A esta herramienta debemos decirle que columnas queremos que compare entre las filas. Como vimos anteriormente, queremos eliminar las filas que compartan valores en la columna de n√∫mero de factura.

![image.png](https://drive.google.com/uc?export=view&id=1SLsfxeucLni6wHzQiHW8BpQIosFyFb-u)

### 2.3 Detecci√≥n y eliminaci√≥n de cantidades negativas

Si revisaste con atenci√≥n el [Data Explorer de Kaggle](https://www.kaggle.com/datacertlaboratoria/proyecto-3-segmentacin-de-clientes-en-ecommerce) o si ya descubriste la funci√≥n de Google Sheets "Estad√≠sticas de Columna" (Datos > Estad√≠sticas de Columna) te habr√°s dado cuenta que tanto en la columna de Monto como la de Cantidad hay valores negativos.

Estos valores negativos no necesariamente est√°n incorrectos. De hecho, si revisaste con atenci√≥n la descripci√≥n de la columna en el dataset de Kaggle te habr√°s dado cuenta que aquellas facturas que comienzan con la letra C corresponden a devoluciones y, por lo que podr√≠amos asumir que esos valores negativos son por esa raz√≥n (una venta es positiva, una devoluci√≥n negativa).

![image.png](https://drive.google.com/uc?export=view&id=1X9nKHZTY55BGIvoya5wxvT86K6x3W8C-)

Como solo queremos analizar las ventas del negocio (y no las devoluciones), deber√≠amos eliminar esos valores de nuestro dataset. Para hacerlo puedes usar filtros, en particular la opci√≥n **"Filtrar por condici√≥n"**, y luego eliminar las filas que tengan valores negativos.

> üëÄ ¬øSe te queda pegado el navegador? Esto es normal. Como estamos trabajando con una fuente de datos grande (m√°s de 20.000 registros) es com√∫n que esto suceda. M√°s adelante en la certificaci√≥n aprenderemos herramientas para manejar grandes vol√∫menes de datos en un instante.

¬øSe te ocurren algunas otras validaciones que podr√≠amos hacer con este dataset? Com√©ntalo con tus compa√±eras en Slack.

# 3. An√°lisis de las m√©tricas de ventas

¬°Enhorabuena! Ya tienes limpio el dataset, es momento de empezar a generar informaci√≥n para la compa√±√≠a. La exploraci√≥n de datos implica el uso de herramientas de visualizaci√≥n de datos y t√©cnicas estad√≠sticas para identificar las caracter√≠sticas de un conjunto de variables.

Primero comenzaremos revisando la cantidad de facturas que genera cada pa√≠s.

### 3.1 An√°lisis de n√∫mero de facturas por pa√≠s

Algo interesante de analizar es la cantidad de facturas que emite cada pa√≠s y el porcentaje de las facturas que cada uno representa.

![facturas.png](https://drive.google.com/uc?export=view&id=1kE8_jLtjFQldV9u6GYEzZseLr_YT3Mfv)

Intenta generar esta informaci√≥n utilizando [tablas din√°micas](https://ibmcsr.udemy.com/course/tablas-dinamicas-dashboards-macros-y-mas-con-google-sheets/learn/lecture/18339974#search), y resumiendo la cantidad de facturas seg√∫n cantidad y seg√∫n porcentaje del total.

> ü§ì **An√°lisis** ü§ì
>
> Es evidente que los clientes de UK son aquellos que realizan la mayor cantidad de compras en el supermercado, dado que el negocio naci√≥ en ese pa√≠s. Los siguientes 5 pa√≠ses con mayor cantidad de compras son Alemania, Francia,  Irlanda, B√©lgica y Holanda.
>
> ¬øPor qu√© crees que estos pa√≠ses Europeos son los que m√°s compran en UK Merch?

### 3.2 An√°lisis del monto total por pa√≠s

Podemos hacer algo similar pero ahora tomando en cuenta la variable monto. Aqu√≠ podemos aprovechar de hacer un an√°lisis un poco m√°s profundo. Adem√°s del monto sumado y el porcentaje que cada pa√≠s representa del total, ser√≠a interesante conocer el monto promedio, el monto m√≠nimo y el monto m√°ximo en cada caso.

![monto.png](https://drive.google.com/uc?export=view&id=193JbFo5TAuzEOjrD7on2Tps3NP3OMD-u)

En esta ocasi√≥n se puede observar que UK representa el 82% del monto de las ventas, sin embargo ten√≠a casi el 90% de las transacciones. Esto quiere decir que existen pa√≠ses que en promedio gastan m√°s por transacci√≥n en UK Merch. Esto se puede validar en la columna de ‚ÄúMonto Promedio‚Äù donde vemos que UK tiene uno de los promedios m√°s bajos por transacci√≥n, mientras que Holanda y Australia tienen los promedios m√°s altos.

Otro tema importante y que puede causar ruido es que tenemos transacciones cuyo monto es 0. Este es un punto que vale la pena levantar al cliente para entender m√°s el contexto. Puede ser un error de digitaci√≥n o puede ser que en algunos casos regalen la mercanc√≠a (quiz√°s sin estar al tanto de ello).

> üë©‚Äçüíª Puedes probar con otros campos calculados como la [mediana](https://ibmcsr.udemy.com/course/estadistica-para-no-estadisticos/learn/lecture/27411654#overview) (MEDIAN) o la [desviaci√≥n est√°ndar](https://ibmcsr.udemy.com/course/estadistica-para-no-estadisticos/learn/lecture/27411668#overview) (STDEV) y complementar tus conclusiones.

Una buena idea ser√≠a hacer este mismo an√°lisis pero ahora para la cantidad de productos de cada factura ü§ì.

### 3.3 Facturas generadas por mes

¬°Bravo! A partir de este primer an√°lisis has encontrado insights (hallazgos) importantes y sobre todo has conocido m√°s sobre el negocio. Una buena idea para complementar un an√°lisis exploratorio de un dataset es agregando gr√°ficos. Estos son muy √∫tiles para identificar diferentes patrones de datos de una forma visual, o vislumbrar comportamientos at√≠picos o estacionales.

Para realizar an√°lisis por mes, tendremos que hacer un procesamiento a la columna ‚ÄúFecha de factura‚Äù. En esa columna se aloja la fecha de la factura pero con mucha informaci√≥n que no necesitamos (por ejemplo el d√≠a, la hora y los minutos). Para esto tenemos que crear una nueva columna "A√ëO - MES" en donde nos gustar√≠a que apareciera la fecha de la forma 2021-03 para cada fila.

La f√≥rmula que nos puede ayudar a lograr esto es TEXTO. Investiga en [la documentaci√≥n de Google Sheets](https://support.google.com/docs/answer/3094139?hl=es-419) o investiga en Google para llegar al resultado esperado.

![mesano.png](https://drive.google.com/uc?export=view&id=1V8j4E6szJsb6OyVmxkWpTyvQp2UKJ6AX)

Con esta nueva columna ya podemos generar una tabla din√°mica que nos cuente la cantidad de facturas en cada mes, para luego graficar esos valores:

![mesano.png](https://drive.google.com/uc?export=view&id=1xzl9eyZCybZSU81yZMawxab8GGigVuZs)

> ü§ì **An√°lisis** ü§ì
>
> No podemos asegurar que hay una estacionalidad dado que s√≥lo tenemos un a√±o de historia de datos. Pero algo que se aprecia es que en noviembre hay un crecimiento grande en las ventas, tal vez esto pueda deberse a las ventas pre fiestas navide√±as, sin embargo vemos que existe una ca√≠da pronunciada en el mes de diciembre del 2021 üò±.

> ¬øPor qu√© crees que se da esta ca√≠da? Revisa las fechas de las compras de diciembre del 2021 y tendr√°s tu respuesta üßô‚Äç‚ôÄÔ∏è.

### 3.4 N√∫mero de facturas UK vs extranjeros por mes

Dado que UK Merch abri√≥ sus fronteras a otros pa√≠ses, ser√≠a una buena idea reportar como est√°n yendo estas ventas y poder evidenciar si existe el mercado. Por lo que vamos a segmentar nuestros clientes en dos grupos: aquellos que pertenecen a UK y aquellos que no pertenecen a UK.

Para esto creamos una columna "¬øPertenece a UK?" y ocupamos la f√≥rmula:

```SQL
=SI(PAIS="United Kingdom";"SI";"NO")
```

Lo que hace esta f√≥rmula es evaluar la condici√≥n (primer argumento). Si esa condici√≥n es verdadera, entonces nos retorna el segundo argumento, si es falsa nos retorna el tercer argumento.

Por lo tanto, si en esta f√≥rmula el pa√≠s que estamos comparando es "United Kingdom" nos devuelve en la celda "SI", y "NO" en caso contrario.

![mesano.png](https://drive.google.com/uc?export=view&id=1qBzNb8lJwp2ZEiZiSyLc5YNx0eWfV-KF)

Con esta nueva variable podemos crear una tabla din√°mica que cuente la cantidad de facturas para cada uno de los casos de la nueva columna "¬øPertenece a UK?". A diferencia de las otras tablas din√°micas que hemos armado, esta necesita que le digamos qu√© valores debe contar en las columnas:

![mesano.png](https://drive.google.com/uc?export=view&id=1EaKBq5x1JaYJZMopDxMHyGyi8Rk-wSIM)

Con esta nueva tabla din√°mica podemos generar una serie temporal que compare a ambos tipos de clientes:

![mesano.png](https://drive.google.com/uc?export=view&id=15uulXHjg2yyHxDgQBrOA4JUntuD4xWbC)

> ü§ì **An√°lisis** ü§ì
>
> Sin tomar en en cuenta el mes at√≠pico de diciembre 2021, podemos ver que ambos segmentos van creciendo.
>
> ¬øQu√© conclusi√≥n puedes sacar con respecto al mercado de clientes no-UK?

### 3.5 Cantidad de clientes nuevos por mes

Ya vimos que Noviembre fue un mes muy bueno para UK Merch. Se generaron muchas m√°s facturas. Este aumento en venta se puede deber a que algunos pocos clientes  hicieron muchas compras, o que una gran cantidad de clientes hicieron aumentar el volumen de compras. Para resolver esta duda, una buena idea es graficar mes a mes la cantidad de clientes √∫nicos y ver si el aumento de las facturas est√° relacionado con el aumento de clientes √∫nicos.

Nuevamente, puedes hacer una tabla din√°mica que use como filas los meses-a√±os y que el valor que calcule sea la cantidad de clientes. Esto se puede calcular ocupando la columna ID Cliente y haciendo un recuento √∫nico (COUNTUNIQUE) para que solo tome valores √∫nicos.

> ü§î ¬øQu√© pasa si no ocupamos esta funci√≥n y hacemos un recuento simple (COUNTA)?

![mesano.png](https://drive.google.com/uc?export=view&id=1rlaCLc628hF56EV3aPd5Gn6JuvfwzVcC)

Esta nueva tabla din√°mica tambi√©n la podemos graficar:

![mesano.png](https://drive.google.com/uc?export=view&id=17SPsWxTApxeSHaKvAW7DC2Qr2mAVpuPZ)

> ü§ì **An√°lisis** ü§ì
>
> Viendo este nuevo gr√°fico, ¬øel √©xito de noviembre se debe a que unos pocos clientes hicieron muchas compras?, ¬øo a que tambi√©n creci√≥ el n√∫mero de clientes que hicieron compras ese mes?

### 3.6 Agrega otros indicadores y ordena la informaci√≥n

¬°Hasta el momento has generado tablas y gr√°ficos muy √∫tiles! Ellos te han permitido entender de mejor manera como se comportaron las ventas del negocio el a√±o pasado. Pero hay muchas otras m√©tricas que puedes revisar, ¬°an√≠mate a complementar tu reporte! Algunas ideas:

- Analizar el monto total de venta por mes
- Tabular los clientes que m√°s compras han realizado
- Graficar los clientes que m√°s han gastado
- Analizar c√≥mo se comporta el monto mes a mes en clientes UK y no-UK
- Lo mismo pero tambi√©n para la cantidad de productos
- ¬°Agrega las que a ti te parezcan √∫tiles!

Toda esa informaci√≥n valiosa probablemente est√° repartida en varias pesta√±as, tablas y gr√°ficos. Ahora es una buena idea para comenzar a estructurarlos en un reporte o dashboard que sea ordenado y amigable para que alguien externo pueda comprender tus conclusiones.

> üé¶ En [la secci√≥n 3 del curso de Google Sheets](https://ibmcsr.udemy.com/course/tablas-dinamicas-dashboards-macros-y-mas-con-google-sheets/learn/lecture/18081049#search) que est√° en el [learning path de Skillsbuild](https://skills.yourlearning.ibm.com/activity/PLAN-F2DC3A8C2759) puedes encontrar videos valiosos que te muestran [como estructurar un buen reporte en hojas de c√°lculo](https://ibmcsr.udemy.com/course/tablas-dinamicas-dashboards-macros-y-mas-con-google-sheets/learn/lecture/18350484#search).

### 3.7 Desaf√≠o ü§Ø (opcional)

Si quieres ir al siguiente nivel y aprender una herramienta muy √∫til en el proceso te desafiamos a que realices tu an√°lisis y reporte en [Google Data Studio](https://datastudio.google.com/) üò±. Esta es una herramienta que te permite conectar diversas fuentes de datos y luego crear visualizaciones y reportes din√°micos. Este tipo de herramientas, llamadas visualizadores, son elementales en el quehacer de una Analista de Datos.

No te preocupes, no estar√°s sola. Te recomendamos mirar [la secci√≥n 5 del curso de Google Sheets](https://ibmcsr.udemy.com/course/tablas-dinamicas-dashboards-macros-y-mas-con-google-sheets/learn/lecture/19671156#search) que est√° en [el learning path de Skillsbuild](https://skills.yourlearning.ibm.com/activity/PLAN-F2DC3A8C2759). Ah√≠ aprender√°s a [importar tus datos desde Google Sheets a Data Studio](https://ibmcsr.udemy.com/course/tablas-dinamicas-dashboards-macros-y-mas-con-google-sheets/learn/lecture/19713220#search) y a [crear tus primeros gr√°ficos](https://ibmcsr.udemy.com/course/tablas-dinamicas-dashboards-macros-y-mas-con-google-sheets/learn/lecture/19716208#search) y [visualizaciones geogr√°ficas](https://ibmcsr.udemy.com/course/tablas-dinamicas-dashboards-macros-y-mas-con-google-sheets/learn/lecture/19838104#search).

# 4. An√°lisis de cohortes

Es momento de responder a la pregunta ¬øQu√© tan fieles o comprometidos son los clientes de UK Merch?. Para responder esto haremos uso de una t√©cnica que ya aplicaste en tu [proyecto de retenci√≥n de startup](https://www.kaggle.com/datacertlaboratoria/proyecto-2-startup-tecnolgica), el **an√°lisis por cohortes**. Seg√∫n la definici√≥n, para aplicar este an√°lisis es necesario separar a los clientes de acuerdo a su fecha de ingreso a nuestro servicio. A diferencia del proyecto anterior, donde estaba claro cu√°l era la fecha de registro ya que era la fecha en que el cliente comenz√≥ a pagar la suscripci√≥n, aqu√≠ la situaci√≥n es distinta. Una alternativa es clasificar a los clientes de acuerdo al mes de su primera compra. ¬°Vamos por ello üôå!

### 4.1 Replicar la data en otra pesta√±a y crear la columna cohorte

Necesitamos copiar la data en otra pesta√±a. Para eso podemos ocupar la ya conocida funci√≥n [Query](https://juansguzman.com/introduccion-a-la-funcion-query-en-google-sheets/).

A la misma data le agregamos una columna extra que llamaremos "Cohorte". Aqu√≠ queremos almacenar el valor para cada cliente de su fecha de ingreso. Tal como vimos anteriormente, esta fecha de ingreso al cohort ser√° su **primera fecha de compra**.

Para encontrar este valor ocuparemos la funci√≥n BUSCARV sobre el dataset original.

```SQL
=BUSCARV(IDCLIENTE;DATASET;COLUMNA DE MES-A√ëO;0)
```

Esta f√≥rmula buscar√° la primera ocurrencia del ID del cliente en el dataset y retornar√° la fecha asociada. ¬øC√≥mo nos aseguramos que la fecha que nos retorne la f√≥rmula sea la primera compra del cliente? Muy simple ü§ì, podemos ordenar el dataset donde buscaremos seg√∫n su A√ëO-MES de forma **ascendente**, y as√≠ la primera ocurrencia que encuentre nuestra f√≥rmula BUSCARV ser√° la primera fecha de compra del cliente.

![imagen.png](https://drive.google.com/uc?export=view&id=1wqlD2OGfC_1BMtzsxSkVdyWCpM7uikab)

Con esta tabla ordenada, en nuestra nueva pesta√±a podemos ocupar la f√≥rmula BUSCARV para extraer el cohort de cada cliente.

![imagen.png](https://drive.google.com/uc?export=view&id=160IRC_5GnzHzA39aVq8FoeICJZs12m1T)

### 4.2 Crear tabla din√°mica

Al igual que en nuestro proyecto 2, vamos a crear una tabla din√°mica cuyas filas sean el cohorte, las columnas sean las fechas a√±o-mes y los valores sean la cantidad de **clientes √∫nicos** que hicieron compras esos meses.

¬øPor qu√© clientes √∫nicos? Porque lo que nos interesa saber es si un cliente hizo una compra en ese mes. No nos interesa saber si hizo varias compras, con que ya haya hecho una compra es suficiente para decir que todav√≠a est√° "engaged" o "retenido" en esa fecha.

![imagen.png](https://drive.google.com/uc?export=view&id=1svFFnws83Pwx5YBFFHchL8etqk3EGFn6)

> ü§ì **An√°lisis** ü§ì
>
> Ya sabemos leer este tipo de tablas. Por ejemplo, en el cohorte de los clientes que comenzaron a comprar en UK Merch en febrero del 2021 (fila 3), de los 380 que comenzaron comprando ese mes, solo 71 siguen comprando dos meses despu√©s.
>
> Hay una baja sustancial en la √∫ltima columna (el √∫ltimo mes), ¬øa qu√© se debe esto? Recuerda que el mes de diciembre final tiene un tratamiento especial.

### 4.3 Transformar tabla din√°mica a an√°lisis por mes

Por nuestra experiencia en el proyecto anterior, sabemos que estos datos tenemos que modificarlos. Primero tenemos que mover todos los cohorts para que comiencen en la primera columna. Para esto sabemos ocupar la funci√≥n QUERY o una combinaci√≥n de BUSCARV+FILAS+COLUMNAS (o si prefieres, simplemente mover manualmente la informaci√≥n ü§´), para luego renombrar las columnas como Mes 1, Mes 2, y as√≠.

Luego de eso tenemos que dividir los n√∫meros por los clientes que comenzaron, para calcular el porcentaje de ellos que contin√∫a en cada mes.

Finalmente, ocupar el formato condicional para darle un aspecto de mapa de calor (sem√°foro) para poder ver gr√°ficamente donde est√°n las fugas y las retenciones.

> **‚ö†Ô∏è Importante**: una vez hecho este an√°lisis, vale la pena replicar el proceso para conocer la retenci√≥n de los clientes UK y los clientes no-UK. Esto lo puedes hacer aplicando filtros en tu tabla din√°mica o filtrando tu informaci√≥n en el dataset copiado. Una vez que los tengas puedes agregar los insights que recojas en tu presentaci√≥n final.
>
> Cuando analices los cohorts asegurate de comparar üçê con üçê y üçé con üçé. Me refiero a que los porcentajes de retenci√≥n que obtengas no son comparables con los que obtuviste en tu proyecto de startup. Son negocios e industrias distintas. M√°s bien vale la pena investigar online cu√°nto es una retenci√≥n de clientes "sana" en el contexto de la venta online.

# 5. Segmentaci√≥n de clientes

Primero lo primero. En el enunciado de proyecto habr√°s le√≠do que tu jefe recomend√≥ hacer una segmentaci√≥n por Recencia, Frecuencia y Monto, o RFM por sus siglas. ¬øQu√© es esto üòï?

Esta metodolog√≠a permite clasificar a los clientes en las tres variables mencionadas:

![rfm.png](https://drive.google.com/uc?export=view&id=1I3BJWMOiUjoaMbTuHUBnsLeuC01tO6oV)

- **Recencia**: Los clientes que han comprado recientemente tienen mayor tendencia a adquirir nuevos productos que aquellos que tienen tiempo sin hacer ninguna compra. Esta variable mide el tiempo que ha transcurrido desde la √∫ltima compra. Para calcularla es necesario identificar la √∫ltima compra que realiz√≥ el cliente y restarlo de la fecha de hoy. Esta puede estar en d√≠as, meses, etc.
- **Frecuencia**: Los clientes que han comprado repetidas veces al ser comparados con aquellos que no, son m√°s propensos a seguir haciendo compras. Est√° variable se puede calcular como el n√∫mero de visitas del cliente, n√∫mero de meses distintos que visit√≥ el cliente, n√∫mero de productos que compr√≥.
- **Monto**: Los clientes que en el pasado han sumado m√°s dinero en todas sus compras, son mayoritariamente m√°s propensos a seguir generando ingresos a una empresa. Para calcular esta variable, b√°sicamente tendr√≠amos que sumar todo el gasto del cliente en el periodo de an√°lisis.

Una vez que tenemos calculadas las 3 variables para todos los clientes, los categorizamos de acuerdo al **cuartil** en que se encuentra cada cliente para cada variable. Es importante notar que este an√°lisis se puede hacer por cuartiles, como tambi√©n por quintiles, tercios, percentiles, o la divisi√≥n que prefiera la analista de datos. Mientras m√°s divisiones, m√°s fino el an√°lisis.

> ü§î ¬øQu√© es un cuartil? Si ordenas tus datos de menor a mayor y los divides en cuatro grupos, obtienes cuartiles. Cuando decimos que un cliente pertenece al primer cuartil de monto, quiere decir que est√° en el primer grupo de cuatro de los que menos gasta. Si por ejemplo, otro cliente est√° en el cuartil 3 en monto, quiere decir que est√° en el tercer grupo que m√°s gasta, por sobre el primer y el segundo.
>
> Si quieres aprender m√°s sobre cuartiles, percentiles y como aplicarlos en hojas de c√°lculo te recomiendo [este video](https://ibmcsr.udemy.com/course/estadistica-para-no-estadisticos/learn/lecture/27411660#overview) del [curso estad√≠stica para no estad√≠sticos](https://ibmcsr.udemy.com/course/estadistica-para-no-estadisticos/learn/lecture/27411570#overview) del [learning path de Skillsbuild](https://skills.yourlearning.ibm.com/activity/PLAN-F2DC3A8C2759).

Entonces un buen cliente pertenece en recencia al cuartil 1 (ya que compr√≥ hace poco), en frecuencia al cuartil 4 (por qu√© compra muy frecuentemente) y en monto al cuartil 4 (por que es de los que m√°s gasta). Para crear la codificaci√≥n buscamos el cuartil de cada cliente en cada una de las variables y luego unimos esos valores en un "c√≥digo" que resuma su perfil. Veamos un ejemplo:

![imagen.png](https://drive.google.com/uc?export=view&id=1YhYWyIGj36O6BTOgT1PjqxmeX5wr6ZSi)

Miremos algunos ejemplos:
- **El cliente 1 es un excelente cliente** ya que ha comprado hace poco (pertenece al primer cuartil en recencia, Recencia=1), ha comprado varias veces (pertenece al cuarto cuartil en frecuencia, Frecuencia=4) y ha gastado montos grandes en sus compras (pertenece al cuarto cuartil en monto, Monto=4). A ellos los codificamos como 144 (Recencia=1, Frecuencia=4, Monto=4)
- El cliente 4 es **un cliente que compr√≥ hace mucho tiempo** (cuarto cuartil en recencia, Recencia=4), pero ha hecho varias compras en su historia (cuarto cuartil Frecuencia, Frecuencia=4) y hace compras relativamente caras (tercer cuartil en monto, Monto=3). Si juntamos los n√∫meros su codificaci√≥n es 443.

Luego podemos ir creando distintas codificaciones con caracterizaciones de los clientes:
- **Los mejores clientes (RFM=144): ** Clientes altamente comprometidos que han comprado lo m√°s reciente, con mayor frecuencia, y han generado la mayor cantidad de ingresos.
- **Los clientes leales (RFM=X4X):**  En este tipo de codificaci√≥n la ‚ÄúX‚Äù hace referencia a que el cliente puede pertenecer a cualquier cuartil en Recencia, pertenece al cuartil 4 en Frecuencia y puede estar en cualquier cuartil en Monto. Esto quiere decir que el cliente codificado con 242 o 344 ser√°n considerados dentro de la categor√≠a ‚ÄúM√°s leales‚Äù. Estos clientes son los que compran m√°s a menudo en UK Merch.
- **Los clientes que m√°s pagan (RFM=XX4):** Los clientes que han hecho las compras m√°s caras en UK Merch.
- **Los clientes fieles (RFM=X41, RFM=X42):** Son clientes que suelen volver a tu tienda pero no gastan mucho.
- **Nuevos clientes (RFM=11X):** Compradores por primera vez en UK Merch
- **Los durmientes (RFM=44X):** Grandes clientes del pasado que no han comprado en un tiempo.

> üëÄ Seg√∫n esta categorizaci√≥n es posible que **un cliente pueda pertenecer a m√°s de un segmento**, en este caso se tendr√° que priorizar a qu√© segmento asignarlo de acuerdo a la necesidad del negocio. Por otro lado, habr√° clientes que no est√©n segmentados, podr√≠as **hacer una refactorizaci√≥n en las categor√≠as** (volver a pensar las categor√≠as con m√°s informaci√≥n) como por ejemplo tus clientes que m√°s pagan pasar√°n a ser XX3 y XX4, de est√° forma agregar√°s a los clientes que pertenecen al cuartil 3 y 4 de la dimensi√≥n Monto.

¬°Vamos por esa segmentaci√≥n ü§ò!

### 5.1 Preparar un nuevo dataset

Para mantener el orden, vamos a volver a crear una nueva pesta√±a donde copiaremos solo las columnas que necesitamos de nuestro dataset original. Para calcular la recencia necesitaremos las fechas, para la frecuencia la cantidad de facturas (y por ende, el n√∫mero de factura) y para el monto claramente necesitamos el monto. Como todo esto va asociado al cliente, tambi√©n necesitamos su ID.

![imagen.png](https://drive.google.com/uc?export=view&id=1e2VVxzJ2Gi-inZw6TtZ0aJY4SIbVULpX)

Con esta informaci√≥n crearemos una tabla din√°mica en donde las filas sean los ID de todos los clientes y en las columnas podamos ver tres piezas de informaci√≥n importantes:

1. La √∫ltima fecha de compra del cliente (aqu√≠ puedes ocupar el agregador SUM)
2. La cantidad de facturas que est√°n asociadas a cada cliente
3. La suma total del monto gastado por el cliente

Te recomiendo volver a copiar esta informaci√≥n en otro lugar de la pesta√±a para poder agregarle columnas y hacer la categorizaci√≥n ah√≠ (¬°gracias funci√≥n QUERY!)

![imagen.png](https://drive.google.com/uc?export=view&id=1DhVX1zt94NN0LtD1foBM0INnq_mBV9VI)

Como ves hay varias columnas que debemos comenzar a calcular. La primera es D√≠as, en donde queremos calcular la cantidad de d√≠as que han pasado desde la √∫ltima compra del cliente y hoy (el d√≠a que estamos haciendo el an√°lisis). Para esto es √∫til la funci√≥n [DIAS](https://support.google.com/docs/answer/9061296?hl=es-419) (o DAYS). Con esto vamos a poder ver en qu√© nivel de Recencia se encuentra cada cliente. Si ha comprado hace pocos d√≠as, probablemente lo categoricemos en el primer o segundo cuartil, pero si su √∫ltima compra fue hace muchos d√≠as, puede que termine en el tercer o cuarto cuartil.

Antes de categorizar cada valor en su cuartil, necesitamos saber cuales son los rangos de los cuartiles. Para esto, crearemos una mini tabla en donde calcularemos los cuartiles para los d√≠as, frecuencia de facturas y monto total, utilizando la funci√≥n [CUARTIL](https://support.google.com/docs/answer/3094041).

![imagen.png](https://drive.google.com/uc?export=view&id=17jwwFJz9NsKZQSxDbWJk2mMeVITV37en)

Estos valores que calculaste en la tabla son los l√≠mites entre cuartil y cuartil. Miremos un ejemplo:

![imagen.png](https://drive.google.com/uc?export=view&id=11zaZscd6G7r43PIG4tPMTVXt_P6vEZJg)

Supongamos que para Frecuencia obtuviste los valores de arriba. Esto quiere decir que los clientes que hayan comprado entre 0 y 1.185 veces estar√°n en el primer cuartil. Aquellos que han comprado entre 1.185 y 5.365 pertenecen al segundo cuartil, y as√≠ hasta llegar al 4to cuartil.

> üëÄ A√∫n cuando en la figura pareciera que los cuartiles se superponen, no es el caso. Los l√≠mites que ves en la imagen son eso: l√≠mites.

Por lo tanto, los valores de ejemplo que vemos a la izquierda podemos categorizarlos seg√∫n el cuartil al que pertenecen:
- 22.43 est√° entre 12.795 y 27.23 por lo tanto pertenece al 4to cuartil
- 6.27 est√° entre 5.365 y 12.795 por lo que pertenece al 3er cuartil
- 0.81 est√° entre 0 y 1.185 por lo que pertenece al 1er cuartil

Esta misma categorizaci√≥n tenemos que hacerla en nuestras columnas de Recencia, Frecuencia y Monto, categorizando los valores de Fecha M√°xima, # Facturas y Monto respectivamente.

Veamos el ejemplo de la primera celda de Recencia:

![imagen.png](https://drive.google.com/uc?export=view&id=1-o9VX9R0GAtuYKUoDamB4OaxNggVrO_3)

Lo que queremos hacer es comparar el valor de la cantidad de d√≠as (AG2=367) con los rangos de los cuartiles de la tabla que acabamos de calcular y ver d√≥nde entra. Para lograr esto queremos probar varias condiciones con la funcion [IFS](https://support.google.com/docs/answer/7014145?hl=en):

```SQL
=IFS(CONDICION_1;VALOR_1;CONDICION_2;VALOR_2...)
```

En esta f√≥rmula el primer argumento es una condici√≥n, el segundo argumento es el valor a dejar en la celda si la primera condici√≥n se cumple. Si esto no se cumple, entonces prueba la segunda condici√≥n. Si esta se cumple deja el valor 2 en la celda, sino sigue con el resto de las condiciones.

Para ir probando en qu√© rango de cuartil se encuentra el valor en AG2 vamos haciendo comparaciones:

- **Condici√≥n 1 (AG2<=$AP$34;$AO$34):** Si AG2 es menor o igual a AP34 (que es el primer l√≠mite de rango del cuartil), entonces deja el valor de AO34 (que es el valor 1, para indicar que pertenece al primer cuartil).
- **Condici√≥n 2 (AG2<=$AP$35;$AO$35):** Si AG2 es menor o igual a AP35 (que es el segundo l√≠mite de rango del cuartil), y como ya sabemos que no pertenece al primer cuartil, entonces deja el valor de AO35 (que es el valor 2, para indicar que pertenece al segundo cuartil).
- **Condici√≥n 3 (AG2<=$AP$36;$AO$36):** Si AG2 es menor o igual a AP36 (que es el tercer l√≠mite de rango del cuartil), y como ya sabemos que no pertenece al segundo cuartil, entonces deja el valor de AO36 (que es el valor 3, para indicar que pertenece al tercer cuartil).
- **Condici√≥n 4 (AG2<=$AP$37;$AO$37):** Si AG2 es menor o igual a AP37 (que es el cuarto l√≠mite de rango del cuartil), y como ya sabemos que no pertenece al tercer cuartil, entonces deja el valor de AO37 (que es el valor 4, para indicar que pertenece al cuarto cuartil).

En el caso de AG2=367 no se cumple la primera condici√≥n (porque no es menor o igual que 59, no se cumple la segunda condici√≥n (porque no es menor o igual que 92), tampoco se cumple la tercera (porque no es menor o igual que 183.5), pero si se cumple la cuarta condici√≥n (si es menor o igual a 415), por lo que dejamos el valor de AO37=4. Es decir, ese valor pertenece al cuarto cuartil.

Esta categorizaci√≥n tenemos que hacerla para todos los clientes y en las tres columnas de RFM.

![imagen.png](https://drive.google.com/uc?export=view&id=1rsjMqD-Ydl_C_2BIAbk4rCZk5yd2JNNQ)

> ü§ì **An√°lisis** ü§ì
>
> Veamos estos resultados. El cliente 12346 qued√≥ categorizado como 4 en Recencia, 1 en Frecuencia y 4 en Monto. Y esto s√≠ tiene sentido ya que el hizo su √∫ltima compra hace mucho tiempo (367 d√≠as), no ha comprado muchas veces en UK Merch (solo tiene una factura a su nombre) y si ha gastado mucho (m√°s de 77.000 libras esterlinas, lo que es una compra grande).
>
> ¬øPuedes hacer un an√°lisis similar con el cliente 12347?

Ahora que tenemos a todos los clientes categorizados en cuartiles para su Recencia, Frecuencia y Monto, podemos utilizar filtros para ir asign√°ndoles categor√≠as como las que definimos m√°s arriba (y todas las que se te ocurran).

![imagen.png](https://drive.google.com/uc?export=view&id=19cz2-2ziOTyX3YAQ4i_mWkX0FdIjwDuk)

> üë©‚Äçüíª Siempre hay m√°s de una forma de resolver este tipo de problemas en el an√°lisis de datos. Si te das cuenta la forma que te acabamos de explicar es bien manual. Implica hacer condiciones para cada intervalo de los cuartiles y luego ir categorizando a mano. ¬øQu√© pasa si en vez de cuartiles hubieras elegido hacer este ejercicio con deciles? Entonces necesitarias 10 condiciones en un funci√≥n IFS üò±. Pero siempre Google Sheet tiene una forma m√°s autom√°tica para hacerlo.
>
> En este caso podemos utilizar la f√≥rmula RANGO.PERCENTIL.EXC que calcula la posici√≥n en percentil (de 1 a 100, pero entre 0 y 1. Por ejemplo, 0.83 es el percentil 83) del dato con respecto al conjunto de datos. Si ese valor lo multiplicas por 3 (para llevarlo a valores entre 0 y 3) y luego le sumas 1 (para llevarlo a valores entre 1 y 4, es decir, cuartiles) y luego redondeas el resultado, puedes obtener autom√°ticamente su categorizaci√≥n
>
> ![imagen.png](https://drive.google.com/uc?export=view&id=1KNGpczbK4RNDnrQHVIKNssWb_UfJw25d)
>
> Luego, para no tener que categorizar utilizando filtros, podr√≠as definir una serie de condiciones dentro de una funci√≥n IFS
>
> ![imagen.png](https://drive.google.com/uc?export=view&id=16x_LKa5A8KIyd_w2esG-kxjWkfTyNwe6)

Cuando tengas los n√∫meros, puedes resumir la informaci√≥n en una tabla din√°mica y hacer recomendaciones espec√≠ficas a UK Merch. Por ejemplo, si el n√∫mero de clientes durmientes es muy alto, una buena estrategia de marketing ser√≠a contactarlos y motivarlos a volver a comprar (por medio de promociones por ejemplo) ya que sabemos que son clientes que compran muy seguido pero que hace tiempo no compran. Otro caso hipot√©tico podr√≠a ser el lanzamiento de un nuevo producto. En este caso podr√≠a convenir apuntar las estrategias de marketing a tus clientes leales (los que compran m√°s frecuentemente) para que asi tu nuevo producto agarre tracci√≥n en el mercado. [Este art√≠culo](https://blog.elogia.net/rfm-recency-frecuency-y-money-qu%C3%A9-valor-tiene-nuestro-cliente) te puede dar algunas buenas ideas.

Otra estrategia inteligente ser√≠a agregar la variable de si pertenece o no a UK al an√°lisis y ver como cambia la segmentaci√≥n. Y de esa forma se pueden hacer recomendaciones de publicidad m√°s enfocada en clientes de UK (con un lenguaje y modismos del pa√≠s) si vemos que hay oportunidades ah√≠.

De esta forma UK Merch puede aplicar la ley de Pareto y enfocar sus esfuerzos para que sus mejores clientes le traigan la mayor cantidad de ganancias. Una campa√±a peque√±a bien ejecutada a un segmento espec√≠fico de clientes puede ser mucho m√°s efectiva que una campa√±a publicitaria grande y cara sin un foco claro.