# Proyecto 1 del grupo 3: Desafío Empresarial - Análisis de Cohortes para los Pagos de Ironhack

## PARTICIPANTES

* Carla Fernandez
* Jesús Ramírez
* Moisés Gómez 

## Introducción

IronHack Payments, una empresa de servicios financieros de vanguardia, ha estado ofreciendo soluciones innovadoras de adelanto de efectivo desde su creación en 2020. Con un compromiso de proporcionar adelantos de dinero gratuitos y precios transparentes, IronHack Payments ha logrado una base de usuarios sustancial. Como parte de su esfuerzo continuo por mejorar sus servicios y entender el comportamiento de los usuarios, IronHack Payments ha encargado un proyecto de análisis de cohortes.

## Visión General del Proyecto

En este proyecto, realizarás un análisis de cohortes exhaustivo basado en datos proporcionados por IronHack Payments. El objetivo principal es analizar cohortes de usuarios definidos por el mes de creación de su primer adelanto en efectivo. Seguirás la evolución mensual de las métricas clave para estas cohortes, lo que permitirá a IronHack Payments obtener valiosas perspectivas sobre el comportamiento de los usuarios y el rendimiento de sus servicios financieros.

### Métricas a Analizar

Calcularás y analizarás las siguientes métricas para cada cohorte:

1. **Frecuencia de Uso del Servicio:** Comprender con qué frecuencia los usuarios de cada cohorte utilizan los servicios de adelanto de efectivo de IronHack Payments a lo largo del tiempo.
2. **Tasa de Incidentes:** Determinar la tasa de incidentes, enfocándose específicamente en los incidentes de pago, para cada cohorte. Identificar si hay variaciones en las tasas de incidentes entre diferentes cohortes.
3. **Ingresos Generados por la Cohorte:** Calcular el total de ingresos generados por cada cohorte a lo largo de los meses para evaluar el impacto financiero del comportamiento de los usuarios.
4. **Nueva Métrica Relevante:** Proponer y calcular una nueva métrica relevante que brinde perspectivas adicionales sobre el comportamiento de los usuarios o el rendimiento de los servicios de IronHack Payments.

### Herramientas de Análisis de Datos

Se espera que realices el análisis de cohortes utilizando Python, aprovechando principalmente la biblioteca Pandas para la manipulación y análisis de datos. Sin embargo, el análisis principal debe realizarse utilizando Python.

### Análisis Exploratorio de Datos (EDA)

Antes de sumergirte en el análisis de cohortes, realiza un análisis exploratorio de datos para obtener una comprensión completa del conjunto de datos. Explora estadísticas clave, distribuciones y visualizaciones para identificar patrones y valores atípicos. El EDA te ayudará a tomar decisiones informadas sobre estrategias de preprocesamiento y análisis de datos.

### Análisis de la Calidad de Datos

Evalúa la calidad del conjunto de datos identificando valores faltantes, inconsistencias en los datos y posibles errores. Implementa pasos de limpieza y preprocesamiento de datos para garantizar la fiabilidad de tu análisis. Documenta cualquier problema de calidad de datos encontrado y los pasos tomados para abordarlos.

### Entregables

1. **Código en Python:** Proporciona código en Python bien documentado que realice el análisis de cohortes, incluyendo la carga de datos, preprocesamiento, creación de cohortes, cálculo de métricas y visualización.
2. **Informe de Análisis Exploratorio de Datos:** Prepara un informe que resuma los hallazgos de tu análisis exploratorio de datos. Incluye visualizaciones e insights que ayuden a entender el conjunto de datos.
3. **Informe de Análisis de la Calidad de Datos:** Documenta los resultados de tu análisis de calidad de datos, destacando cualquier problema y los pasos tomados para resolverlos.
4. **Presentación Corta:** Crea una presentación concisa (máximo de 4 diapositivas) que resuma tus hallazgos del análisis de cohortes y las perspectivas clave obtenidas del EDA y el análisis de calidad de datos. Esta presentación debe ser adecuada para compartir con el equipo de IronHack Payments.

In [None]:
# Interpretación del problema
# La frecuencia de uso del servicio, tendremos en cuenta los paramtros 'user_id' y 'deleted_id' para saber la frecuencia.
# Los cohortes estan definidos por la fecha del 'create at' de cash y fees.
# Los ingresos generados por la cohorte, el 'amount' del cash * el 'total amount' del fees y agrupados por los meses.
# La Tasa de incidentes, esta relacionado con el 'Type' de Fees.

# Saber si el ID de cash y fees son los mismos
# 'user_id' y 'deleted_acount_id' son parametros que estan vinculados.

# Preparar datos

En esta sección haremos una primera exploración ràpida para la limpieza de los datos.

In [14]:
#importacion de librerias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [19]:
# Carga de los datasets
lexique = pd.read_excel("./project_dataset/Lexique - Data Analyst.xlsx")
cash = pd.read_csv("./project_dataset/extract - cash request - data analyst.csv")
fees = pd.read_csv("./project_dataset/extract - fees - data analyst - .csv")

In [33]:
lexique.head(12)

Unnamed: 0,Column name,Description
0,id,Unique ID of the fee object
1,type,Type of fee\nPossible values are :\n\n- instan...
2,status,Status of the fees (= does the fees was succes...
3,category,Describe the reason of the incident fee.\n\n2 ...
4,reason,Description of the fee
5,created_at,Timestamp of the fee's creation
6,updated_at,Timestamp of the latest fee's details update
7,paid_at,Timestamp of the fee's payment
8,from_date,Apply only to postpone fees. Initial date of r...
9,to_date,Apply only to postpone fees. New date of reimb...


In [37]:
lexique.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16375 entries, 0 to 16374
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Column name  16003 non-null  object
 1   Description  13 non-null     object
dtypes: object(2)
memory usage: 256.0+ KB


In [None]:
# Observamos que el lexique contine un total de 13 valores diferentes de none y que el column_name indica el encabezado del documento de fees y el description contiene la 
# descripción de las celdas. Tambien observamos que tiene 16003 filas vacias.

In [None]:
#TODO: Limpiar filas sobrantes.

In [73]:
cash

Unnamed: 0,id,amount,status,created_at,updated_at,user_id,moderated_at,deleted_account_id,reimbursement_date,cash_request_received_date,money_back_date,transfer_type,send_at,recovery_status,reco_creation,reco_last_update
0,5,100.0,rejected,2019-12-10 19:05:21.596873+00,2019-12-11 16:47:42.40783+00,804.0,2019-12-11 16:47:42.405646+00,,2020-01-09 19:05:21.596363+00,,,regular,,,,
1,70,100.0,rejected,2019-12-10 19:50:12.34778+00,2019-12-11 14:24:22.900054+00,231.0,2019-12-11 14:24:22.897988+00,,2020-01-09 19:50:12.34778+00,,,regular,,,,
2,7,100.0,rejected,2019-12-10 19:13:35.82546+00,2019-12-11 09:46:59.779773+00,191.0,2019-12-11 09:46:59.777728+00,,2020-01-09 19:13:35.825041+00,,,regular,,,,
3,10,99.0,rejected,2019-12-10 19:16:10.880172+00,2019-12-18 14:26:18.136163+00,761.0,2019-12-18 14:26:18.128407+00,,2020-01-09 19:16:10.879606+00,,,regular,,,,
4,1594,100.0,rejected,2020-05-06 09:59:38.877376+00,2020-05-07 09:21:55.34008+00,7686.0,2020-05-07 09:21:55.320193+00,,2020-06-05 22:00:00+00,,,regular,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23965,20616,100.0,money_back,2020-10-12 13:54:11.686225+00,2021-02-06 20:17:49.292493+00,13681.0,,,2021-02-06 11:00:00+00,2020-10-13,2021-02-06 20:17:49.257521+00,instant,2020-10-12 13:54:24.352856+00,,,
23966,25243,50.0,money_back,2020-10-27 14:41:25.73491+00,2020-12-18 13:15:40.843946+00,,,30367.0,2020-11-03 22:00:00+00,2020-10-28,2020-12-01 13:26:53.787672+00,instant,2020-10-27 14:41:57.901946+00,completed,2020-11-12 23:20:41.928788+00,2020-12-01 13:26:53.815504+00
23967,22357,100.0,money_back,2020-10-20 07:58:04.006937+00,2021-02-05 12:19:30.656816+00,82122.0,,,2021-02-05 11:00:00+00,2020-10-21,2021-02-05 12:19:30.626289+00,instant,2020-10-20 07:58:14.171553+00,,,
23968,20256,100.0,money_back,2020-10-10 05:40:55.700422+00,2021-02-05 13:14:19.707627+00,64517.0,,,2021-02-05 11:00:00+00,2020-10-12,2021-02-05 13:14:19.689906+00,instant,2020-10-10 05:41:23.368363+00,,,


In [27]:
fees.head()

Unnamed: 0,id,cash_request_id,type,status,category,total_amount,reason,created_at,updated_at,paid_at,from_date,to_date,charge_moment
0,6537,14941.0,instant_payment,rejected,,5.0,Instant Payment Cash Request 14941,2020-09-07 10:47:27.42315+00,2020-10-13 14:25:09.396112+00,2020-12-17 14:50:07.47011+00,,,after
1,6961,11714.0,incident,accepted,rejected_direct_debit,5.0,rejected direct debit,2020-09-09 20:51:17.998653+00,2020-10-13 14:25:15.537063+00,2020-12-08 17:13:10.45908+00,,,after
2,16296,23371.0,instant_payment,accepted,,5.0,Instant Payment Cash Request 23371,2020-10-23 10:10:58.352972+00,2020-10-23 10:10:58.352994+00,2020-11-04 19:34:37.43291+00,,,after
3,20775,26772.0,instant_payment,accepted,,5.0,Instant Payment Cash Request 26772,2020-10-31 15:46:53.643958+00,2020-10-31 15:46:53.643982+00,2020-11-19 05:09:22.500223+00,,,after
4,11242,19350.0,instant_payment,accepted,,5.0,Instant Payment Cash Request 19350,2020-10-06 08:20:17.170432+00,2020-10-13 14:25:03.267983+00,2020-11-02 14:45:20.355598+00,,,after


In [None]:
# Podemos obervar que el Fees tiene 13 columnas y muchas de ellas tiene valor None. 

In [41]:
fees.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21061 entries, 0 to 21060
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   id               21061 non-null  int64  
 1   cash_request_id  21057 non-null  float64
 2   type             21061 non-null  object 
 3   status           21061 non-null  object 
 4   category         2196 non-null   object 
 5   total_amount     21061 non-null  float64
 6   reason           21061 non-null  object 
 7   created_at       21061 non-null  object 
 8   updated_at       21061 non-null  object 
 9   paid_at          15531 non-null  object 
 10  from_date        7766 non-null   object 
 11  to_date          7766 non-null   object 
 12  charge_moment    21061 non-null  object 
dtypes: float64(2), int64(1), object(10)
memory usage: 2.1+ MB


In [45]:
fees.sample(10)

Unnamed: 0,id,cash_request_id,type,status,category,total_amount,reason,created_at,updated_at,paid_at,from_date,to_date,charge_moment
14419,10868,19160.0,instant_payment,accepted,,5.0,Instant Payment Cash Request 19160,2020-10-04 17:47:07.119519+00,2020-10-13 14:25:12.506697+00,2020-10-26 07:18:33.94802+00,,,after
18100,8750,13765.0,incident,accepted,rejected_direct_debit,5.0,rejected direct debit,2020-09-22 22:34:05.22199+00,2020-10-13 14:25:18.307205+00,2020-10-31 06:40:27.362232+00,,,after
9950,19498,24882.0,postpone,accepted,,5.0,Postpone Cash Request 24882,2020-10-29 01:09:20.895088+00,2020-10-29 01:09:20.895112+00,2020-10-29 01:09:24.557841+00,2020-11-09 23:51:00+00,2020-11-12 23:00:00+00,before
11076,2573,5006.0,incident,accepted,rejected_direct_debit,5.0,rejected direct debit,2020-08-01 22:11:39.783415+00,2020-10-13 14:25:06.356961+00,2020-10-07 00:40:50.467018+00,,,after
6267,15605,22840.0,instant_payment,accepted,,5.0,Instant Payment Cash Request 22840,2020-10-21 16:03:11.226762+00,2020-10-21 16:03:11.226785+00,2020-11-05 13:29:13.824089+00,,,after
18508,12933,20683.0,instant_payment,accepted,,5.0,Instant Payment Cash Request 20683,2020-10-12 18:36:29.804071+00,2020-10-13 14:25:18.946171+00,2020-11-05 07:42:46.327168+00,,,after
1049,15018,21721.0,postpone,accepted,,5.0,Postpone Cash Request 21721,2020-10-20 06:32:48.744542+00,2020-10-20 06:32:52.272812+00,2020-10-20 06:32:52.397908+00,2020-11-09 22:00:00+00,2020-12-09 11:00:00+00,before
8076,16507,23581.0,instant_payment,accepted,,5.0,Instant Payment Cash Request 23581,2020-10-23 16:20:23.34056+00,2020-10-23 16:20:23.340588+00,2020-11-05 20:48:26.723221+00,,,after
4716,10021,18492.0,instant_payment,accepted,,5.0,Instant Payment Cash Request 18492,2020-09-30 08:13:27.498349+00,2020-10-13 14:25:05.475167+00,2020-10-28 02:38:34.300646+00,,,after
5469,18656,25203.0,instant_payment,rejected,,5.0,Instant Payment Cash Request 25203,2020-10-27 14:18:47.561483+00,2020-10-27 14:18:47.561533+00,2020-12-03 11:39:34.570999+00,,,after


In [49]:
fees['total_amount'].describe()

count    21061.000000
mean         5.000237
std          0.034453
min          5.000000
25%          5.000000
50%          5.000000
75%          5.000000
max         10.000000
Name: total_amount, dtype: float64

In [53]:
fees.groupby('total_amount').count()

Unnamed: 0_level_0,id,cash_request_id,type,status,category,reason,created_at,updated_at,paid_at,from_date,to_date,charge_moment
total_amount,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
5.0,21060,21056,21060,21060,2196,21060,21060,21060,15530,7766,7766,21060
10.0,1,1,1,1,0,1,1,1,1,0,0,1


In [None]:
#El total amount es 10.0 o 5.0

In [55]:
fees.groupby('status').count()

Unnamed: 0_level_0,id,cash_request_id,type,category,total_amount,reason,created_at,updated_at,paid_at,from_date,to_date,charge_moment
status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
accepted,14841,14841,14841,1560,14841,14841,14841,14841,14523,2985,2985,14841
cancelled,4938,4934,4938,97,4938,4938,4938,4938,90,4780,4780,4938
confirmed,88,88,88,19,88,88,88,88,2,0,0,88
rejected,1194,1194,1194,520,1194,1194,1194,1194,916,1,1,1194


In [None]:
#Tiene 4 estados: accepted, cancelled, confirmed, rejected

In [60]:
set(cash.columns) & set(fees.columns)

{'created_at', 'id', 'status', 'updated_at'}

In [None]:
# Tanto fees como fash estan vinculados a estos 4 identificadores.

In [69]:
#Variables
##Frecuencia de uso de servicio
cash.user_id
cash.deleted_account_id (cuenta como uso?)

created_month a extraer de 'created_at'

La frecuencia se refiere a la cohorte?

In [75]:
cash[cash['user_id'] == 231.0]

Unnamed: 0,id,amount,status,created_at,updated_at,user_id,moderated_at,deleted_account_id,reimbursement_date,cash_request_received_date,money_back_date,transfer_type,send_at,recovery_status,reco_creation,reco_last_update
1,70,100.0,rejected,2019-12-10 19:50:12.34778+00,2019-12-11 14:24:22.900054+00,231.0,2019-12-11 14:24:22.897988+00,,2020-01-09 19:50:12.34778+00,,,regular,,,,
434,1293,100.0,rejected,2020-04-20 01:47:15.38493+00,2020-04-20 09:09:02.1137+00,231.0,2020-04-20 09:09:02.109199+00,,2020-05-02 22:00:00+00,,,regular,,,,
1380,2933,100.0,money_back,2020-06-10 18:26:50.085351+00,2020-12-18 13:08:36.317354+00,231.0,2020-06-11 11:19:13.12836+00,,2020-07-17 22:00:00+00,2020-06-13,2020-07-19 22:00:00+00,regular,,,,
1392,1461,100.0,money_back,2020-04-29 22:27:17.998022+00,2020-06-10 16:05:03.1476+00,231.0,2020-04-30 10:44:40.99108+00,,2020-06-01 22:00:00+00,2020-05-05,2020-06-10 16:05:03.147262+00,regular,,,,
9104,769,100.0,money_back,2020-02-29 15:33:39.425986+00,2020-11-04 12:55:55.465728+00,231.0,2020-02-29 15:35:42.000663+00,,2020-04-05 22:00:00+00,2020-03-02,2020-04-14 20:26:02.498434+00,regular,,,,
9218,396,100.0,money_back,2020-01-07 16:40:50.839262+00,2020-11-04 12:55:12.047839+00,231.0,2020-01-08 09:17:46.917255+00,,2020-02-11 23:00:00+00,2020-01-10,,regular,,,,
13079,9291,100.0,money_back,2020-07-21 16:42:30.71593+00,2020-12-18 13:09:40.955221+00,231.0,2020-07-21 17:46:22.989524+00,,2020-07-30 22:00:00+00,2020-07-23,2020-07-30 22:00:00+00,regular,2020-07-28 16:42:30.715508+00,,,
14684,10563,100.0,money_back,2020-08-02 12:18:49.662247+00,2020-12-18 13:10:17.051826+00,231.0,2020-08-02 16:22:11.247348+00,,2020-09-01 22:00:00+00,2020-08-05,2020-09-01 22:00:00+00,regular,2020-08-09 12:18:49.661783+00,,,
18491,19968,100.0,money_back,2020-10-09 01:08:17.542886+00,2020-12-18 13:11:44.328981+00,231.0,,,2020-10-30 22:00:00+00,2020-10-09,2020-11-03 23:00:00+00,instant,2020-10-09 01:08:34.096632+00,,,
22075,14484,100.0,money_back,2020-09-04 08:27:22.790976+00,2020-12-18 13:13:18.258385+00,231.0,,,2020-09-30 22:00:00+00,2020-09-05,2020-10-06 22:00:00+00,instant,2020-09-11 08:27:22.732887+00,,,
