# Análisis Exploratorio de Datos y Creación de Cohortes

##### Setup: cargar librerías necesarias

In [None]:
# Importing the Warnings library for better presentation
import warnings

# Importing the NumPy library for numerical operations (as np)
import numpy as np
# Importing the Pandas library for data manipulation and analysis (as pd)
import pandas as pd

# Importing the Seaborn library for advanced data visualization (as sns)
import seaborn as sns
# Importing the Matplotlib library for basic plotting functionalities (as plt)
import matplotlib.pyplot as plt

from IPython.display import display_html 

#####  Setup: ajustes de visualización para los gráficos

In [None]:
warnings.filterwarnings('ignore', category=DeprecationWarning)

# Matplotlib inline to visualize Matplotlib graphs
%matplotlib inline

# Configuration to set so that all the Seaborn figures come out with this size
%config Inlinebackend.figure_format= 'retina'

warnings.resetwarnings()

In [None]:
# Set the Seaborn context to "poster" for larger text and figures
sns.set_context("poster")

# Set the default figure size for Seaborn plots
sns.set(rc={"figure.figsize": (12., 6.)})

# Set the Seaborn style to "whitegrid" for a white background with gridlines
sns.set_style("whitegrid")

## Análisis Exploratorio de Datos (EDA)

### Carga inicial de datos

In [None]:
cash_orig = pd.read_csv('../data/cash_request.csv')

In [None]:
fees_orig = pd.read_csv('../data/fees.csv')

### Visión general de datos

In [None]:
cash_orig.head()

In [None]:
fees_orig.head()

In [None]:
cash_orig.shape # 23970 peticiones de cash

In [None]:
fees_orig.shape # 21061 fees

In [None]:
# Column names
print(f"Column Names: {cash_orig.columns}")
print(f"Column Names: {fees_orig.columns}")

### Variables de trabajo

In [None]:
fees = fees_orig.copy()
cash = cash_orig.copy()

In [None]:
# Renombrar 'id' a 'cash_request_id' para mayor claridad (y para el merge posterior con fees)
cash.rename(columns={'id': 'cash_request_id'}, inplace=True)

In [None]:
#cash = cash[['cash_request_id', 'amount', 'status', 'created_at', 'user_id', 'deleted_account_id']]
cash.head()

### Unificación de ID de usuario

In [None]:
# Ver NA en columna 'user_id'
cash[cash['user_id'].notna()].nunique() # 21867 válidos
cash[cash['user_id'].isna()].nunique() # 2103 Nan
# Comprobación: 21867 válidos + 2103 NaN = 23970 filas

# Comprobar que 'user_id' y 'deteled_account_id' son complementarios
cash[cash['user_id'].isna() & cash['deleted_account_id'].isna()] # Empty dataframe -> Siempre tenemos un valor válido en una de las dos columnas

# Comprobar solapamientos
cash[cash['user_id'].notna() & cash['deleted_account_id'].notna()] # La fila crid=280 tiene user_id=3161 y a la vez deleted_account_id=262

In [None]:
# Nueva columna 'id_usuario' a partir de user_id + deleted_account_id
cash['id_usuario'] = cash['user_id'].fillna(cash['deleted_account_id'])
# Conversión de float a int
cash['id_usuario'] = cash['id_usuario'].astype(int)

### Tratamiento de fechas

In [None]:
# Convertir 'created_at' a tipo datetime
print(cash['created_at'].dtypes)
cash['created_at'] = pd.to_datetime(cash['created_at'])
print(cash['created_at'].dtypes)

## Creación de Cohortes

### Obtener cohortes

In [None]:
grouped1st = cash.pivot_table(
    values = "created_at",
    index = "id_usuario",
    aggfunc = "min"
)
warnings.filterwarnings('ignore', category=UserWarning)
grouped1st['cohorte'] = grouped1st['created_at'].dt.to_period('M') #UserWarning: Converting to PeriodArray/Index representation will drop timezone information.
warnings.resetwarnings()
grouped1st.head()

In [None]:
# Dos maneras de calcular lo mismo:
grouped1st.index.shape # (11793,) usuarios distintos
grouped1st.value_counts().sum() # 11793 usuarios distintos

In [None]:
# Calcular valores más legibles para 'cohorte', sobre todo para que a la hora de graficar no se confundan con el eje temporal
# NB. Esta necesidad la hemos visto a posteriori...
claves = list(np.sort(grouped1st['cohorte'].unique()))
claves
valores = []
for index, value in enumerate(claves):
    valores.append(f'COH-{index+1:02}.{value.strftime("%b")}/{str(value.strftime("%y"))}')     
valores
labels = dict(zip(claves, valores))
labels

In [None]:
# Añadir dato 'cohorte' a tabla de trabajo
cash_cohorts = pd.merge(cash, grouped1st[['cohorte']], on='id_usuario')
cash_cohorts.head()
# Añadir dato 'cohorte_lbl' a tabla de trabajo
cash_cohorts['cohorte_lbl'] = cash_cohorts['cohorte'].transform(lambda x: labels[x])
cash_cohorts.sample(30)

In [None]:
# Comprobar que la diferencia es sólo 2 columnas adicionales
print(cash.shape)
print(cash_cohorts.shape)

In [None]:
cash_cohorts.info()

In [None]:
# Convertir cohorte a tipo str para poder agrupar y graficar (el tipo de datos period[M] no lo permite)
cash_cohorts['cohorte'] = cash_cohorts['cohorte'].astype(str)
cash_cohorts.info()


In [None]:
# Número de usuarios por cohorte
users_by_cohort = cash_cohorts.groupby('cohorte_lbl')['id_usuario'].nunique().reset_index()
users_by_cohort.rename(columns={'id_usuario': 'num_usuarios'}, inplace=True)
print(users_by_cohort)

In [None]:
# Comprobación
print(cash['id_usuario'].nunique())
print(users_by_cohort['num_usuarios'].sum()) # 11793 total usuarios

In [None]:
users_by_cohort.set_index('cohorte_lbl', inplace=True)
print(users_by_cohort.index)

#### Gráfica

In [None]:
#warnings.filterwarnings('ignore', category=DeprecationWarning)
# Gràfico de barras para visualizar el número de usuarios por cohorte
plt.figure(figsize=(10, 6))
#users_by_cohort.plot(kind='line', marker='o')
users_by_cohort.plot(kind='bar')
plt.title('Número de Usuarios por Cohorte')
plt.xlabel('Cohorte')
plt.ylabel('Usuarios')
plt.grid(True)
plt.xticks(rotation=25, ha='right', rotation_mode='anchor', fontsize=10)
plt.legend([])
plt.tight_layout()
plt.show()
#warnings.resetwarnings()

#### CONCLUSIONES:

- Se observa un despunte muy significativo en el número de ususarios nuevos en octubre de 2020.

- Dicha observación nos genera las siguientes preguntas:

    - ¿Se ha realizado alguna actualización en el sistema para facilitar el alta de usuarios nuevos?
    - ¿Se ha realizado alguna campaña de márketing para promocionar el servicio?