## Análisis de cohortes


- **Definición de Cohorte**:
  - Una cohorte es un grupo de sujetos con algo en común, como experimentar un evento específico dentro de un período definido.
  - Ejemplos de cohortes incluyen personas nacidas en un mismo año, empresas que formalizaron contratos en un trimestre específico, o usuarios que se registraron en un servicio en un mes determinado.

- **Eventos y Períodos**:
  - Un evento es una acción registrada realizada por un usuario, como registrarse o hacer un pedido.
  - El período es el tiempo durante el cual ocurrió el evento, que puede ser un año, trimestre, mes, semana, etc.
  - Para definir una cohorte, se necesita identificar el evento común y el período de tiempo en el cual ocurre ese evento.

- **Objetivos del Análisis de Cohortes**:
  - Los analistas dividen la base de clientes en cohortes para identificar patrones de comportamiento.
  - Se analiza cómo se comportan los usuarios de una cohorte durante un período específico, por ejemplo, cuántos siguen activos después de cierto tiempo desde el evento inicial.

- **Utilidad y Limitaciones**:
  - El análisis de cohortes es retrospectivo y muestra comportamientos pasados de los usuarios.
  - Ayuda a modificar productos y procesos, generar nuevas hipótesis, pero no es predictivo debido a factores externos que pueden influir en el comportamiento futuro de los usuarios.

En resumen, el análisis de cohortes es una herramienta valiosa para comprender cómo los usuarios interactúan con un producto o servicio en el tiempo, aunque su enfoque está en el pasado y no puede predecir el comportamiento futuro de manera precisa.

## Análisis de cohortes en python

### Análisis de Cohortes en Python

#### Introducción
- **Objetivo**: Analizar cómo varía el número de usuarios nuevos que realizan su primera compra de mes a mes para determinar el impacto en las ganancias.
- **Datos**: Registro de pedidos de una tienda online, incluyendo fecha, cliente y valor del pedido.

#### Carga de Datos
```python
import pandas as pd

orders = pd.read_csv('orders_data_for_cohort.csv')
print(orders.head(10))
```
| order_id | order_date         | customer_id | revenue |
|----------|---------------------|-------------|---------|
| 536365   | 2010-12-01 08:26:00 | 17850       | 139.12  |
| 536366   | 2010-12-01 08:28:00 | 17850       | 22.20   |
| ...      | ...                 | ...         | ...     |

#### Preparación de Datos
- **Obtener Fecha de Primer Pedido por Cliente**:
```python
first_order_date_by_customers = orders.groupby('customer_id')['order_date'].min()
print(first_order_date_by_customers.head())
```
| customer_id | first_order_date     |
|-------------|----------------------|
| 12346       | 2011-01-18 10:01:00  |
| 12347       | 2010-12-07 14:57:00  |
| ...         | ...                  |

- **Unir DataFrame con Fecha de Primer Pedido**:
```python
first_order_date_by_customers.name = 'first_order_date'
orders = orders.join(first_order_date_by_customers, on='customer_id')
print(orders.head(10))
```
| order_id | order_date         | customer_id | revenue | first_order_date   |
|----------|---------------------|-------------|---------|--------------------|
| 536365   | 2010-12-01 08:26:00 | 17850       | 139.12  | 2010-12-01 08:26:00|
| 536366   | 2010-12-01 08:28:00 | 17850       | 22.20   | 2010-12-01 08:26:00|
| ...      | ...                 | ...         | ...     | ...                |

- **Crear Columnas de Mes para Cohortes**:
```python
orders['first_order_month'] = orders['first_order_date'].astype('datetime64[M]')
orders['order_month'] = orders['order_date'].astype('datetime64[M]')
print(orders.head(10))
```
| order_id | order_date         | customer_id | revenue | first_order_date   | first_order_month | order_month      |
|----------|---------------------|-------------|---------|--------------------|-------------------|------------------|
| 536365   | 2010-12-01 08:26:00 | 17850       | 139.12  | 2010-12-01 08:26:00| 2010-12-01        | 2010-12-01       |
| 536366   | 2010-12-01 08:28:00 | 17850       | 22.20   | 2010-12-01 08:26:00| 2010-12-01        | 2010-12-01       |
| ...      | ...                 | ...         | ...     | ...                | ...               | ...              |

#### Análisis de Cohortes
- **Agrupación por Mes de Primer Pedido**:
```python
cohort_grouped = orders.groupby('first_order_month').agg({'order_id': 'nunique', 'customer_id': 'nunique', 'revenue': 'sum'})
print(cohort_grouped)
```
| first_order_month | order_id | customer_id | revenue    |
|-------------------|----------|-------------|------------|
| 2010-12-01        | 8318     | 885         | 4512148.220|
| 2011-01-01        | 2153     | 417         | 1125882.281|
| ...               | ...      | ...         | ...        |

#### Conclusiones
- Los ingresos de cada cohorte disminuyen con el tiempo, lo que es esperado.
- El número de clientes nuevos en cada cohorte también disminuye mes a mes, indicando una caída en clientes activos.

## Ejercicios!

**Ejercicio 1**

El dataset '/datasets/game_purchases.csv' almacena datos sobre compras dentro de la aplicación del juego de estrategia Battle Universe. Las columnas en la tabla son:

- purchase_datetime: la fecha y el tiempo de la compra;
- player_id: el identificador único del jugador;
- item: el nombre del artículo comprado: life, mana (poder mágico utilizado para lanzar hechizos), armor;
- price (en la divisa del juego);
- purchase_id: el identificador único de la compra.
  
Lee los datos del archivo game_purchases.csv. Guarda el resultado como purchases.

Agrupa los datos de la tabla purchases: encuentra la fecha de la primera compra para cada jugador. Nombra al objeto Series resultante first_purchase_dates.

Después cambia el nombre del objeto Series first_purchase_datetime cambiando el atributo name.

Muestra las 10 primeras filas de first_purchase_dates.

In [None]:
import pandas as pd

purchases = pd.read_csv("/datasets/game_purchases.csv")

first_purchase_dates = purchases.groupby("player_id")["purchase_datetime"].min()

first_purchase_dates.name = "first_purchase_datetime"

print(first_purchase_dates.head(10))

**Ejercicio 2**

Une el DataFrame purchases con el objeto Series first_purchase_dates para que first_purchase_dates se convierta en una columna separada en el DataFrame purchases.

Guarda el DataFrame conjunto como purchases. 

Imprime las 10 primeras filas del DataFrame conjunto.

In [None]:
import pandas as pd

purchases = pd.read_csv("/datasets/game_purchases.csv")
first_purchase_dates = purchases.groupby("player_id")["purchase_datetime"].min()
first_purchase_dates.name = "first_purchase_datetime"
purchases = purchases.join(first_purchase_dates, on="player_id")
print(purchases.head(10))

**Ejercicio 3**

En el DataFrame purchase, crea una columna purchase_month para almacenar los meses recuperados de la columna purchase_datetime.

También crea una columna first_purchase_month donde almacenarás los meses recuperados de la columna first_purchase_datetime. Esta columna se utilizará para crear cohortes.

Imprime las 10 primeras filas del DataFrame purchases.

In [None]:
import pandas as pd

purchases = pd.read_csv("/datasets/game_purchases.csv")
first_purchase_dates = purchases.groupby("player_id")["purchase_datetime"].min()
first_purchase_dates.name = "first_purchase_datetime"
purchases = purchases.join(first_purchase_dates, on="player_id")
purchases["purchase_month"] = purchases["purchase_datetime"].astype("datetime64[M]")
purchases["first_purchase_month"] = purchases["first_purchase_datetime"].astype(
    "datetime64[M]"
)
print(purchases.head(10))

**Ejercicio 4**

Haz una tabla con el DataFrame de purchases donde calcularás la suma total gastada en compras dentro del juego para cada cohorte.

Guarda la tabla agrupada como cohort_stats. 

Muestra cohort_stats.

In [None]:
import pandas as pd

purchases = pd.read_csv("/datasets/game_purchases.csv")
first_purchase_dates = purchases.groupby("player_id")["purchase_datetime"].min()
first_purchase_dates.name = "first_purchase_datetime"
purchases = purchases.join(first_purchase_dates, on="player_id")
purchases["purchase_month"] = purchases["purchase_datetime"].astype("datetime64[M]")
purchases["first_purchase_month"] = purchases["first_purchase_datetime"].astype(
    "datetime64[M]"
)

cohort_stats = purchases.groupby("first_purchase_month")["price"].sum().reset_index()
cohort_stats = cohort_stats.set_index("first_purchase_month")["price"]
print(cohort_stats)


## Evaluación de cambios en valores absolutos por mes

En este análisis, formamos cohortes de usuarios basándonos en la fecha de la primera compra. Luego, evaluamos cómo cambia el comportamiento de cada cohorte con el tiempo, centrándonos en dos aspectos:

1. Si el tamaño promedio de compra se está reduciendo.
2. Si los clientes atraídos en diferentes momentos son igualmente rentables.

### Preparación de datos

```python
import pandas as pd

orders = pd.read_csv('orders_data_for_cohort.csv')
first_order_date_by_customers = orders.groupby('customer_id')['order_date'].min()
first_order_date_by_customers.name = 'first_order_date'
orders = orders.join(first_order_date_by_customers, on='customer_id')
orders['first_order_month'] = orders['first_order_date'].astype('datetime64[M]')
orders['order_month'] = orders['order_date'].astype('datetime64[M]')
```

### Análisis de cohortes

Para analizar cómo cambian los valores absolutos por mes, vamos a utilizar una tabla dinámica con el método `pivot_table()`:

```python
cohort_table = orders.pivot_table(
    index='first_order_month',
    columns='order_month',
    values='revenue',
    aggfunc='sum',
)
```


## Evaluar los cambios en valores relativos por ciclo de vida

### Ejercicios

**Ejercicio 1**

Compila una tabla dinámica para mostrar los cambios en las compras totales realizadas por los jugadores en cohortes mensuales. Guárdala como purchase_pivot.

Muestra la tabla.

In [None]:
import pandas as pd

purchases = pd.read_csv("/datasets/game_purchases.csv")
first_purchase_dates = purchases.groupby("player_id")["purchase_datetime"].min()
first_purchase_dates.name = "first_purchase_datetime"
purchases = purchases.join(first_purchase_dates, on="player_id")
purchases["purchase_month"] = purchases["purchase_datetime"].astype("datetime64[M]")
purchases["first_purchase_month"] = purchases["first_purchase_datetime"].astype(
    "datetime64[M]"
)
purchase_pivot = purchases.pivot_table(
    index="first_purchase_month",
    columns="purchase_month",
    values="price",
    aggfunc="sum",
)
print(purchase_pivot)

**Ejercicio 2**

Encuentra el número de compras y el número de jugadores que realizaron compras para cada cohorte y para cada mes. Guárdalo como purchases_grouped_by_cohorts.

Agrega la columna purchases_per_player al DataFrame purchases_grouped_by_cohorts. En esta columna calcula el promedio de compras por jugador. 

Compila una tabla dinámica y guárdala como mean_purchases_pivot. Contendrá cambios en el número promedio de compras por jugador en cada cohorte en diferentes meses.

Muestra la tabla dinámica mean_purchases_pivot.

In [None]:
import pandas as pd

purchases = pd.read_csv("/datasets/game_purchases.csv")
first_purchase_dates = purchases.groupby("player_id")["purchase_datetime"].min()
first_purchase_dates.name = "first_purchase_datetime"
purchases = purchases.join(first_purchase_dates, on="player_id")
purchases["purchase_month"] = purchases["purchase_datetime"].astype("datetime64[M]")
purchases["first_purchase_month"] = purchases["first_purchase_datetime"].astype(
    "datetime64[M]"
)

# Encuentra el número de compras y el número de jugadores que realizaron compras
purchases_grouped_by_cohorts = purchases.groupby(
    ["first_purchase_month", "purchase_month"]
).agg(
    purchase_id=("purchase_id", "nunique"),
    player_id=("player_id", "nunique"),
)

# Crea una columna 'purchases_per_player'
purchases_grouped_by_cohorts["purchases_per_player"] = (
    purchases_grouped_by_cohorts["purchase_id"]
    / purchases_grouped_by_cohorts["player_id"]
)

# Compila una tabla dinámica
mean_purchases_pivot = purchases_grouped_by_cohorts.pivot_table(
    index="first_purchase_month",
    columns="purchase_month",
    values="purchases_per_player",
    aggfunc="mean",
)

print(mean_purchases_pivot)

**Ejercicio 3**

Añade la columna cohort_lifetime a la tabla purchases_grouped_by_cohorts. Dentro de la columna, convierte el mes de compra en el juego (purchase_month) en el mes de ciclo de vida (el mes relativo al mes de la cohorte).

La columna cohort_lifetime debe contener números enteros.

Esta tarea da un resultado intermedio.  No tienes que mostrar nada.

In [None]:
import pandas as pd
import numpy as np

purchases = pd.read_csv("/datasets/game_purchases.csv")
first_purchase_dates = purchases.groupby("player_id")["purchase_datetime"].min()
first_purchase_dates.name = "first_purchase_datetime"
purchases = purchases.join(first_purchase_dates, on="player_id")
purchases["purchase_month"] = purchases["purchase_datetime"].astype("datetime64[M]")
purchases["first_purchase_month"] = purchases["first_purchase_datetime"].astype(
    "datetime64[M]"
)
purchases_grouped_by_cohorts = purchases.groupby(
    ["first_purchase_month", "purchase_month"]
).agg({"purchase_id": "nunique", "player_id": "nunique"})
purchases_grouped_by_cohorts["purchases_per_player"] = (
    purchases_grouped_by_cohorts["purchase_id"]
    / purchases_grouped_by_cohorts["player_id"]
)
purchases_grouped_by_cohorts = purchases_grouped_by_cohorts.reset_index()

# Calcula el mes de ciclo de vida
purchases_grouped_by_cohorts["cohort_lifetime"] = (
    (
        (
            purchases_grouped_by_cohorts["purchase_month"]
            - purchases_grouped_by_cohorts["first_purchase_month"]
        )
        / np.timedelta64(1, "M")  # Obtén el número de meses
    )
    .round()
    .astype("int")
)  # Redondea y convierte a tipo entero

**Ejercicio 4**

Compila una tabla dinámica para mostrar los cambios en el número promedio de compras por jugador en relación con el mes de ciclo de vida de la cohorte. Guarda la tabla como lifetime_pivot e imprime la variable.

In [None]:
import pandas as pd
import numpy as np

purchases = pd.read_csv("/datasets/game_purchases.csv")
first_purchase_dates = purchases.groupby("player_id")["purchase_datetime"].min()
first_purchase_dates.name = "first_purchase_datetime"
purchases = purchases.join(first_purchase_dates, on="player_id")
purchases["purchase_month"] = purchases["purchase_datetime"].astype("datetime64[M]")
purchases["first_purchase_month"] = purchases["first_purchase_datetime"].astype(
    "datetime64[M]"
)
purchases_grouped_by_cohorts = purchases.groupby(
    ["first_purchase_month", "purchase_month"]
).agg({"purchase_id": "nunique", "player_id": "nunique"})
purchases_grouped_by_cohorts["purchases_per_player"] = (
    purchases_grouped_by_cohorts["purchase_id"]
    / purchases_grouped_by_cohorts["player_id"]
)
purchases_grouped_by_cohorts = purchases_grouped_by_cohorts.reset_index()
purchases_grouped_by_cohorts["cohort_lifetime"] = (
    purchases_grouped_by_cohorts["purchase_month"]
    - purchases_grouped_by_cohorts["first_purchase_month"]
)
purchases_grouped_by_cohorts["cohort_lifetime"] = purchases_grouped_by_cohorts[
    "cohort_lifetime"
] / np.timedelta64(1, "M")
purchases_grouped_by_cohorts["cohort_lifetime"] = (
    purchases_grouped_by_cohorts["cohort_lifetime"].round().astype("int")
)

lifetime_pivot = purchases_grouped_by_cohorts.pivot_table(
    index="first_purchase_month",
    columns="cohort_lifetime",
    values="purchases_per_player",
    aggfunc="mean",
)

print(lifetime_pivot)

## Visualización del análisis de cohortes

### Ejercicios

En el DataFrame revenue_per_user_pivot puedes encontrar una tabla dinámica que refleja los cambios en el tamaño de compra promedio de los clientes de la tienda Sports Are Good por cohortes agrupadas por el ciclo de vida. Utiliza el método heatmap() para hacer un mapa de calor de los cambios en el tamaño de compra promedio de las cohortes.

Establece el tamaño de la figura: plt.figure(figsize=(13, 9)). Asigna a la visualización resultante el nombre 'Tamaño promedio de compra del cliente'.

Pasa los parámetros annot, fmt, linewidths y linecolor al método heatmap() para que:

- los valores se muestren en las celdas del mapa de calor;
- se muestren dos puntos decimales;
- la línea que separa las celdas tenga 1 píxel de ancho;
- el color de la línea sea negro ('black').

In [None]:
import seaborn as sns
from matplotlib import pyplot as plt
import pandas as pd

# Carga los datos del DataFrame
revenue_per_user_pivot = pd.read_csv("/datasets/revenue_pivot.csv")
revenue_per_user_pivot = revenue_per_user_pivot.set_index("first_order_month")

# Establece el tamaño de la figura y da un nombre a la visualización
plt.figure(figsize=(13, 9))
plt.title("Tamaño promedio de compra del cliente")

# Crea un mapa de calor con los parámetros especificados
sns.heatmap(
    data=revenue_per_user_pivot, annot=True, fmt=".2f", linewidths=1, linecolor="black"
)

# Muestra el mapa de calor
plt.show()

## Tasa de Retención y tasa de cancelación

### Ejercicios

**Ejercicio 1**

El DataFrame work_user_activity contiene datos sobre la actividad de usuarios/as de una aplicación de citas para genios llamada Minder. Tiene las siguientes columnas:

- first_activity_date:la fecha en que el usuario escribió por primera vez a su primer match;
- activity_date: todas las fechas en que el usuario escribió a sus matches por primera vez;
- user_id:el identificador del usuario.
- 
Crea dos columnas en el DataFrame user_activity:

- activity_week:la semana en que comenzó un chat;
- first_activity_week:la semana en que comenzó el primer chat.

Para recuperar la semana, toma el primer día de la semana durante el cual ocurrió el evento.

No tienes que mostrar nada.

In [None]:
import pandas as pd

user_activity = pd.read_csv("/datasets/work_user_activity.csv")
user_activity["activity_date"] = pd.to_datetime(user_activity["activity_date"])
first_activity_date = user_activity.groupby(["user_id"])["activity_date"].min()
first_activity_date.name = "first_activity_date"
user_activity = user_activity.join(first_activity_date, on="user_id")

# Calcula la semana de actividad
user_activity["activity_week"] = user_activity["activity_date"] - pd.to_timedelta(
    user_activity["activity_date"].dt.dayofweek, unit="d"
)

# Calcula la primera semana de actividad
user_activity["first_activity_week"] = user_activity[
    "first_activity_date"
] - pd.to_timedelta(user_activity["first_activity_date"].dt.dayofweek, unit="d")

# Si necesitas convertir las fechas al primer día de la semana, puedes hacerlo con .dt.to_period('W') + 1

**Ejercicio 2**

Crea la columna cohort_lifetime en el DataFrame user_activity para almacenar el número de semanas (como un número entero) entre la semana en que comenzó un chat (activity_week) y la semana en que comenzó el primer chat (first_activity_week).

In [None]:
import pandas as pd
import numpy as np

user_activity = pd.read_csv("/datasets/work_user_activity.csv")
user_activity["activity_date"] = pd.to_datetime(user_activity["activity_date"])
first_activity_date = user_activity.groupby(["user_id"])["activity_date"].min()
first_activity_date.name = "first_activity_date"
user_activity = user_activity.join(first_activity_date, on="user_id")
user_activity["activity_week"] = pd.to_datetime(
    user_activity["activity_date"], unit="d"
) - pd.to_timedelta(user_activity["activity_date"].dt.dayofweek, unit="d")
user_activity["first_activity_week"] = pd.to_datetime(
    user_activity["first_activity_date"], unit="d"
) - pd.to_timedelta(user_activity["first_activity_date"].dt.dayofweek, unit="d")

# Calcula el ciclo de vida de la cohorte
user_activity["cohort_lifetime"] = (
    (user_activity["activity_week"] - user_activity["first_activity_week"])
    / np.timedelta64(1, "W")
).astype(int)