# Sprint 4 - Análisis de Embudos con SQL (Sesiones)

**Versión para estudiantes**

En este caso vamos a profundizar en nuestros conocimientos sobre el lenguaje **SQL** a través de la resolución de un problema de negocios muy común actualmente y que involucra al denominado **análisis de embudos**. Es importante que sepas que el propósito de este análisis es entregar implicancias acerca del ciclo de vida de entidades dentro de un negocio. En este sentido, con entidades nos referimos a productos, servicios, clientes, usuarios, suscriptores o cualquier otro caso que siga un proceso definido por dicho negocio.

Visto esto, el análisis de embudos debe su nombre a que durante el proceso de negocio existen etapas por las que deben atravesar las mencionadas entidades, pudiendo concluir su ciclo de vida en cualquiera de ellas. Por tanto la cantidad de entidades existentes en una de estas fases será necesariamente mayor a la cantidad obervada en la siguiente, generándose así un porcentaje de conversión asociado (o de forma equivalente un porcentaje de pérdida).

Adicionalmente, el análisis de embudos suele incluir dos componentes importantes a considerar:

* Análisis de adquisición de entidades: Aquí el enfoque es estudiar justamente los cambios de etapas en el embudo, generándose por tanto un indicador fundamental que es la ya descrita tasa de conversión.
* Análisis de retención de entidades: Aquí el enfoque es estudiar el comportamiento específico a nivel de la etapa final del embudo, con énfasis en comprender el valor integral y efectivo de cada entidad para el negocio.

Una de las mayores utilidades que actualmente presenta el análisis de embudos en las empresas es en el ámbito del proceso de marketing y ventas, en el que interesa generar inferencias asociadas al "viaje" de clientes y usuarios para la toma de decisiones estratégicas. Por tanto, el presente caso trata esta temática.

## Entendimiento del contexto

Imagina que trabajas como analista de datos en una empresa que provee un servicio de suscripción anual para escuchar música a través de una aplicación descargable en distintos dispositivos. El servicio en cuestión puede ser contratado mensualmente en diferentes planes (plan individual, plan familiar, plan corporativo, etc.) por los usuarios según sus preferencias y necesidades, teniendo cada una de estas alternativas una tarificación distinta (i.e. el plan individual es más barato que el familiar).

A lo largo de un año, la unidad de marketing ha realizado una inversión importante en sus principales canales con el objetivo de aumentar el número de suscriptores al servicio, lo cual evidentemente debería repercutir a nivel de los ingresos generados y potencialmente mejorar el EBITDA de la empresa.

Por lo expuesto, una vez concluido el año te han pedido analizar la eficiencia que ha tenido esta estrategia de mercadeo y derivar de aquí recomendaciones para futuros proyectos del área. Para aclarar un poco más tu tarea, el director de marketing te especifica que deberías brindar información acerca de qué sucedió con los siguientes indicadores de resultados asociados a las campañas realizadas:

* Tasas de conversión de prospectos a suscriptores.
* Ingresos y costos derivados de las suscripciones.
* Rentabilidad de las suscripciones.

Además te menciona que sería útil que tu análisis esté desglosado en grupos (o “cohortes”), de manera que se bride una mayor granularidad para una mejor toma de decisiones.

## Entendimiento de los datos

Para este análisis tienes a tu disposición la tabla **adquisicion**.

Este dataset contiene una muestra de 12,000 registros (1,000 mensuales) de prospectos de cliente con las siguientes columnas:

* prospect_id: Identificador secuencial de cada uno de los prospectos muestreados.
* month: Mes en el que el prospecto entró a la aplicación por primera vez.
* channel: Canal de marketing por el que se originó el prospecto (Facebook, Tik-Tok o Google-Ads).
* converted: Si el prospecto terminó comprando el servicio y por ende volviéndose suscriptor.
* age: La edad del prospecto al momento de ingresar a la aplicación.
* gender: El género del prospecto (m = Hombre, w = Mujer).
* months_retained: En caso de ser suscriptor, los meses que estuvo suscrito a nuestro servicio durante el año.
* package_price: En caso de ser suscriptor, el pago mensual realizado por el servicio adquirido (en pesos mexicanos).

Así también, se te entrega la tabla **inversion**. Aquí se muestra información asociada al costo mensual de la inversión realizada durante el año por el área de marketing en cada uno de los canales especificados.

Visto lo anterior, utiliza tus conocimientos en **SQL** para explorar estos datasets y definir a partir de aquí un plan de acción que los prepare para el análisis.

Para cumplir con este objetivo, en primer lugar conéctate nuevamente a la base de datos *db_grupoxx* en Postgres. Una vez allí crea y rellena según corresponda las tablas **fac_adquisicion** y **fac_inversion**. Deberás abrir un nuevo editor de consultas.

< Aquí tu respuesta >

**TABLA DE ADQUISICIÓN**

Genera una muestra aleatoria de 10 observaciones de la tabla a fin de conocer un poco más sobre la información que contiene.

< Aquí tu respuesta >

Verifica ahora cuáles canales de marketing están involucrados en las campañas realizadas.

< Aquí tu respuesta >

Mira un resumen estadístico de la edad para conocer un poco más sobre el perfil de los prospectos.

< Aquí tu respuesta >

Mira un resumen estadístico del precio mensual pagado por suscripciones para conocer un poco más sobre esta variable.

< Aquí tu respuesta >

**TABLA DE INVERSIONES**

Genera una muestra aleatoria de estos datos para conocerlos en más detalle.

< Aquí tu respuesta >

Genera un resumen estadístico del costo por canal.

< Aquí tu respuesta >

A partir de esta exploración, define un plan de accion para preparar y limpiar estos datos.

**PLAN DE ACCION PARA PREPARACIÓN DE DATOS**

< Aquí tu respuesta >

## Preparación de datos

Ejecuta el plan de acción especificado en la sección anterior.

Crea la columna gender_full con información más semántica y comprensible.

< Aquí tu respuesta >

Crea la columna revenue con el ingreso potencial de cada prospecto. Recuerda que esta columna debe contener el precio del paquete adquirido por 12 meses.

< Aquí tu respuesta >

Finalmente, cambia el tipo de la columna months_retained a entero.

< Aquí tu respuesta >

Ya tienes las tablas fuente limpias, pero para mantener la fidelidad de la información vamos a llevar solo lo que necesitamos hacia vistas previo a nuestro análisis. 

Crea entonces la vista **vw_adquisicion** que contendrá lo siguiente:

* prospect_id
* age
* gender (la columna procesada)
* channel
* month (con el nombre created_month)
* converted
* months_retained
* package_price
* revenue

< Aquí tu respuesta >

Crea también la vista **vw_inversion** que replicará exactamente a la tabla de inversiones de marketing.

< Aquí tu respuesta >

## Análisis de adquisición

Como ya se mencionó, el objetivo en este punto es estudiar los cambios de etapas en el embudo a través de indicadores vinculados a las conversiones entre prospectos y suscriptores derivados de la inversión en marketing. En concreto aquí quisiéramos saber lo siguiente:

* ¿Cuál es la tasa de conversión por canal?
* ¿Qué canal de marketing es potencialmente más rentable?
* ¿Que otras variables inciden en la tasa de conversión y la rentabilidad?

### ¿Cuál es la tasa de conversión por canal?

Para responder esta pregunta en primera instancia construye el embudo de este caso que muestre la cantidad de prospectos y además la cantidad de aquellos que se suscribieron.

< Aquí tu respuesta >

A continuación, modifica esta consulta para que se incluya además el porcentaje de suscriptores respecto al total de prospectos. Este valor se conoce como *tasa de conversión* y es el principal indicador asociado a los embudos, puesto que mide la calidad de los potenciales clientes que llegan gracias a las acciones de marketing.

< Aquí tu respuesta >

Altera nuevamente esta consulta para visualizar la tasa de conversión por cada uno de los canales de marketing. Estos serán nuestros grupos relevantes de análisis por ahora. 

< Aquí tu respuesta >

En base a estos resultados, extrae al menos una conclusión que dé respuesta a la pregunta de negocio planteada.

**CONCLUSIONES**

< Aquí tu respuesta >

### ¿Qué canal de marketing es potencialmente más rentable?

Incluye en la consulta anterior el cálculo que permita conocer el ingreso potencial anual de cada suscriptor. Este indicador se conoce como *RPC: Revenue Per Client* y mide la capacidad de generar ingresos nuevos de los clientes derivados de acciones de marketing.

< Aquí tu respuesta >

Incorpora ahora en la consulta el cálculo que permita conocer el costo anual asociado a cada suscriptor. Este indicador se conoce como *CAC: Client Acquisition Cost* y mide el nivel de recursos necesarios que deben ser incurridos por la empresa para generar nuevos clientes derivados de acciones de marketing. 

Recuerda que la información de costos está en la vista **vw_inversion** por lo que deberás utilizar tablas temporales (CTEs) o subconsultas.

< Aquí tu respuesta >

Añade ahora la utilidad potencial por cada suscriptor. Este indicador se conoce como *CM: Client Margin* y mide la rentabilidad que tienen potencialmente los clientes derivados de acciones de marketing.

< Aquí tu respuesta >

Extrae conclusiones relevantes que aporten respuestas a la pregunta planteada.

**CONCLUSIONES**

* El canal de Google-Ads muestra una mayor rentabilidad potencial en cuanto a la adquisición de suscriptores con un valor neto de 1,600 pesos por usuario aproximadamente. Una posible razón detrás de esto radica en la utilización universalmente extendida de este buscador web, lo que garantiza mayor cantidad de impresiones de las campañas de marketing en prospectos de mayor calidad. Por tanto, sería recomendable otorgar una mayor participación de este canal en las inversiones estratégicas de marketing futuras considerando que en las inversiones del presente período se ha gastado mucho menos aquí que en Facebook o Tik-Tok.
* El canal de Facebook por su parte presenta una mejor rentabilidad por usuario que Tik-Tok, lo cual se explicaría porque los suscriptores provenientes de esta red social, dada su edad, son más propensos a contratar planes familiares (que son más costosos que los planes individuales preferentes en los usuarios jóvenes de Tik-Tok). Si esto se demuestra, podría resultar interesante ajustar las campañas de marketing por Facebook aplicando promociones de hasta un 6.5%* de descuento a nuevos suscriptores. Esta promoción podría incrementar las tasas de conversión observadas en el canal.

### ¿Que otras variables inciden en la tasa de conversión?

Cambiemos ahora de grupos relevantes para nuestro análisis y consideremos la edad de los prospectos. Crea entonces una consulta que permita evidenciar la tasa de conversión por edad.

< Aquí tu respuesta >

Es evidente que existen muchas cohortes, y extraer conclusiones es complejo por la dificultad asociada a visualizar los resultados. Crea por tanto una nueva consulta en la se agreguen las edades en los siguientes grupos:

* Menores a 30 años
* Entre 30 y 40 años
* Entre 40 y 50 años
* Mayores o iguales a 50 años

Te recomiendo utilizar tablas temporales (CTEs) nuevamente y consolidar todos estos resultados con el comando `UNION ALL`.

< Aquí tu respuesta >

Ya resulta factible extraer conclusiones. Haslo.

**CONCLUSIONES**

< Aquí tu respuesta >

### ¿Que otras variables inciden en la rentabilidad potencial?

Cambiemos nuevamente de cohortes y considerémos ahora el género. Crea una consulta en la cual sea factible conocer el RPC por estos grupos. Para practicar utiliza CTEs de manera similar al ejercicio anterior. 

< Aquí tu respuesta >

Extrae conclusiones para responder la pregunta de negocio.

**CONCLUSIONES**

< Aquí tu respuesta >

## Análisis de retención

Vamos ahora a analizar los resultados específicos en los suscriptores solamente, lo cual permitirá evaluar con mayor profundidad su valor efectivo dentro del negocio y establecer así la calidad final de las estrategias de marketing desarrolladas. En consecuencia, vamos a contestar las siguientes preguntas:

* ¿Cómo ha evolucionado el nivel de retención de suscriptores a lo largo del periodo estudiado?
* ¿Es justificable la inversión en marketing en base al valor real de un suscriptor derivado de esta?

### ¿Cuál es la tasa de retención de suscriptores por mes de suscripción?

En primera instancia vale quedarnos únicamente con la información relevante de suscriptores. Crea una vista llamada **vw_suscriptores** que contenga solamente los datos asociados a clientes.

< Aquí tu respuesta >

Utiliza una consulta para identificar la cantidad de suscriptores que quedan en cada uno de los 6 meses posteriores a adquirir el servicio. En vista que solamente contamos con información de un año de creación de prospectos adiciona en esta consulta un filtro que excluya los meses de creación a partir de Agosto.

< Aquí tu respuesta >

Modifica la consulta anterior a fin de presentar ahora el porcentaje de suscriptores que se mantienen en cada mes respecto a la cantidad que existía inicialmente. Este indicador se conoce como *tasa de retencion* y es una medida del grado de fidelidad alcanzado en los clientes.

< Aquí tu respuesta >

Consideremos ahora las cohortes de meses de creación. Repite esta consulta diferenciando por estos nuevos grupos.

< Aquí tu respuesta >

Genera conclusiones relevantes de estos resultados alcanzados.

**CONCLUSIONES**

< Aquí tu respuesta >

### ¿Cuál ha sido el retorno efectivo sobre la inversión de marketing?

A diferencia del cálculo más “contable” que hicimos en el análisis de adquisición usando medidas como el RPC y el CM que se basaban en un criterio potencial o esperado, ahora nos interesa saber cuál es el valor real de nuestros suscriptores visto que su tiempo de vida puede ser menor a 12 meses dada la tasa de retención obtenida.

Vale entonces definir otro indicador conocido como *ARPU: Average Revenue Per User* que mide el ingreso promedio efectivo recibido por un cliente. Para calcularlo sea entonces el precio medio mensual de suscripción $p_s$. Calculalo mediante una consulta de la vista de suscripciones. 

< Aquí tu respuesta >

El ARPU por tanto se define por la siguiente fórmula:

$$ ARPU = \sum_{m} R_m\times p_s = p_s\sum_{m} R_m $$

donde $P(m)$ es la tasa de retención en cada uno de los meses. Calcúlalo mediante CTEs en base a tus consultas previas de retención (sin agrupar por mes de creación). 

< Aquí tu respuesta >

Incorpora en esta consulta el CAC.

< Aquí tu respuesta >

Debemos ahora restar del ARPU el CAC. Este valor se conoce como *CLV: Customer Lifetime Value* y mide la rentabilidad efectiva que tiene cada suscriptor derivado de las accioens de marketing realizadas. Incorpóralo por tanto en la consulta.

< Aquí tu respuesta >

Genera las conclusiones correspondientes.

**CONCLUSIONES**

< Aquí tu respuesta >

## Integración con Google Sheets

En vista a tus hallazgos, la empresa quiere ahora saber si una nueva inversión enfocada en incrementar la experiencia de usuarios en la aplicación mejorará la rentabilidad de la estrategia de marketing en el futuro. Por tanto, te solicitan crear un reporte en el que se evalúe este escenario y se muestren los efectos que tendría. 

Al respecto te detallan algunos criterios a considerar:

* La inversión podría ser de 25K, 50K, 75K o 100K pesos.
* El efecto esperado implicaría una tasa de retención del 100% en los meses posteriores a la suscripción. Aunque al momento aún no se sabe cuántos meses.
* El reporte debe por consiguiente permitir visualizar los efectos combinados de estos dos eventos en una simulación del CLV que se alcanzaría.

Con este propósito, utiliza Google Sheets para atender este requerimiento. 

Te recomiendo lo siguiente para tu reporte:

1. Copia los resultados obtenidos en tu última consulta en un archivo de Google Sheets. No necesitas nada más.
2. En una nueva hoja del archivo crea tu reporte.
3. Tu reporte debe mostrar una comparación visual del estado actual de suscriptores, retención, ARPU, CAC y CLV, versus los valores alcanzados por tu simulación del escenario.
4. No muestres nada que no sea útil para satisfacer el requerimiento.
5. Utiliza tu creatividad y buen criterio para que los altos cargos de la empresa estén a gusto.
6. Si necesitas algo más de inspiración, mira la siguiente imagen de un reporte que ya fue realizado por otra persona al respecto.

![](reporte.png)