## Análisis de cohortes


- **Definición de Cohorte**:
  - Una cohorte es un grupo de sujetos con algo en común, como experimentar un evento específico dentro de un período definido.
  - Ejemplos de cohortes incluyen personas nacidas en un mismo año, empresas que formalizaron contratos en un trimestre específico, o usuarios que se registraron en un servicio en un mes determinado.

- **Eventos y Períodos**:
  - Un evento es una acción registrada realizada por un usuario, como registrarse o hacer un pedido.
  - El período es el tiempo durante el cual ocurrió el evento, que puede ser un año, trimestre, mes, semana, etc.
  - Para definir una cohorte, se necesita identificar el evento común y el período de tiempo en el cual ocurre ese evento.

- **Objetivos del Análisis de Cohortes**:
  - Los analistas dividen la base de clientes en cohortes para identificar patrones de comportamiento.
  - Se analiza cómo se comportan los usuarios de una cohorte durante un período específico, por ejemplo, cuántos siguen activos después de cierto tiempo desde el evento inicial.

- **Utilidad y Limitaciones**:
  - El análisis de cohortes es retrospectivo y muestra comportamientos pasados de los usuarios.
  - Ayuda a modificar productos y procesos, generar nuevas hipótesis, pero no es predictivo debido a factores externos que pueden influir en el comportamiento futuro de los usuarios.

En resumen, el análisis de cohortes es una herramienta valiosa para comprender cómo los usuarios interactúan con un producto o servicio en el tiempo, aunque su enfoque está en el pasado y no puede predecir el comportamiento futuro de manera precisa.

## Análisis de cohortes en python

### Análisis de Cohortes en Python

#### Introducción
- **Objetivo**: Analizar cómo varía el número de usuarios nuevos que realizan su primera compra de mes a mes para determinar el impacto en las ganancias.
- **Datos**: Registro de pedidos de una tienda online, incluyendo fecha, cliente y valor del pedido.

#### Carga de Datos
```python
import pandas as pd

orders = pd.read_csv('orders_data_for_cohort.csv')
print(orders.head(10))
```
| order_id | order_date         | customer_id | revenue |
|----------|---------------------|-------------|---------|
| 536365   | 2010-12-01 08:26:00 | 17850       | 139.12  |
| 536366   | 2010-12-01 08:28:00 | 17850       | 22.20   |
| ...      | ...                 | ...         | ...     |

#### Preparación de Datos
- **Obtener Fecha de Primer Pedido por Cliente**:
```python
first_order_date_by_customers = orders.groupby('customer_id')['order_date'].min()
print(first_order_date_by_customers.head())
```
| customer_id | first_order_date     |
|-------------|----------------------|
| 12346       | 2011-01-18 10:01:00  |
| 12347       | 2010-12-07 14:57:00  |
| ...         | ...                  |

- **Unir DataFrame con Fecha de Primer Pedido**:
```python
first_order_date_by_customers.name = 'first_order_date'
orders = orders.join(first_order_date_by_customers, on='customer_id')
print(orders.head(10))
```
| order_id | order_date         | customer_id | revenue | first_order_date   |
|----------|---------------------|-------------|---------|--------------------|
| 536365   | 2010-12-01 08:26:00 | 17850       | 139.12  | 2010-12-01 08:26:00|
| 536366   | 2010-12-01 08:28:00 | 17850       | 22.20   | 2010-12-01 08:26:00|
| ...      | ...                 | ...         | ...     | ...                |

- **Crear Columnas de Mes para Cohortes**:
```python
orders['first_order_month'] = orders['first_order_date'].astype('datetime64[M]')
orders['order_month'] = orders['order_date'].astype('datetime64[M]')
print(orders.head(10))
```
| order_id | order_date         | customer_id | revenue | first_order_date   | first_order_month | order_month      |
|----------|---------------------|-------------|---------|--------------------|-------------------|------------------|
| 536365   | 2010-12-01 08:26:00 | 17850       | 139.12  | 2010-12-01 08:26:00| 2010-12-01        | 2010-12-01       |
| 536366   | 2010-12-01 08:28:00 | 17850       | 22.20   | 2010-12-01 08:26:00| 2010-12-01        | 2010-12-01       |
| ...      | ...                 | ...         | ...     | ...                | ...               | ...              |

#### Análisis de Cohortes
- **Agrupación por Mes de Primer Pedido**:
```python
cohort_grouped = orders.groupby('first_order_month').agg({'order_id': 'nunique', 'customer_id': 'nunique', 'revenue': 'sum'})
print(cohort_grouped)
```
| first_order_month | order_id | customer_id | revenue    |
|-------------------|----------|-------------|------------|
| 2010-12-01        | 8318     | 885         | 4512148.220|
| 2011-01-01        | 2153     | 417         | 1125882.281|
| ...               | ...      | ...         | ...        |

#### Conclusiones
- Los ingresos de cada cohorte disminuyen con el tiempo, lo que es esperado.
- El número de clientes nuevos en cada cohorte también disminuye mes a mes, indicando una caída en clientes activos.

## Ejercicios!

**Ejercicio 1**

El dataset '/datasets/game_purchases.csv' almacena datos sobre compras dentro de la aplicación del juego de estrategia Battle Universe. Las columnas en la tabla son:

- purchase_datetime: la fecha y el tiempo de la compra;
- player_id: el identificador único del jugador;
- item: el nombre del artículo comprado: life, mana (poder mágico utilizado para lanzar hechizos), armor;
- price (en la divisa del juego);
- purchase_id: el identificador único de la compra.
  
Lee los datos del archivo game_purchases.csv. Guarda el resultado como purchases.

Agrupa los datos de la tabla purchases: encuentra la fecha de la primera compra para cada jugador. Nombra al objeto Series resultante first_purchase_dates.

Después cambia el nombre del objeto Series first_purchase_datetime cambiando el atributo name.

Muestra las 10 primeras filas de first_purchase_dates.

In [None]:
import pandas as pd

purchases = pd.read_csv("/datasets/game_purchases.csv")

first_purchase_dates = purchases.groupby("player_id")["purchase_datetime"].min()

first_purchase_dates.name = "first_purchase_datetime"

print(first_purchase_dates.head(10))