# **Deserción de clientes**
## Propuesta de proyecto: predicción de rotación de clientes 
## Carlos Pumar, mayo 2021

# Objetivos
* Proyecto final de **estudios** del autor (uso de datos de Caja Maynas para el desarrollo de modelos de clasificación) 
* Puesta a la disposición de un **análisis histórico** de fuga de clientes
* Puesta a la disposición de al menos 3 modelos de clasificación (para su posterior **uso de proyecciones** sobre clientes que potencialmente desertarán de la institución)
* Análisis y proyecciones respecto a clientes del crédito de la **"pequeña empresa"** (crédito comercial)

# Alcance
* **Recopilación y evaluación de datos**
* Análisis exploratorio de los datos
* Preparación de datos para análisis
* Ingenería de datos
* Evaluación de desempeño de modelos (al menos 3: regresión logística, árbol de decisión, bosque aleatorio)
* Presentación de **resultados** y puesta a la disposición del **código fuente** (python)

# Metodología prevista
* (limpieza de datos) 
* Análisis exploratorio
* Aplicación del modelo "RFM" 
* (ingenería de datos)
* Aplicación de modelos de clasificación
* Evaluación de modelos

# Elementos del modelo RFM e intuición 
* "Recency": número de meses transcurridos desde un **evento específico**. 
* Ejemplos de eventos: el **último desembolso; salida del último Asesor de Negocios que atendió al cliente**. 
* "Frequency": número de productos utilizados desde el último desembolso/desde la salida del AdN.
* "Monetary": interés devengado desde el último desembolso//desde la salida del AdN.

# Recopilación de datos en base a distintos intervalos de tiempo
* **Un período** de tiempo se relaciona al proceso del **entrenamiento** del modelo. Meses del primer semestre del 2019.
* **Período de validación** del modelo: Abarca partes del primer semestre del 2019, pero también del segundo semestre del 2019. 
* **Muestreo**: se requiere un **10% de todos los clientes vigentes** en dicho período de tiempo.
* Período de tiempo total de muestra: **año completo del 2019**.
* Se requerirán **datos relacionados con los Asesores de Negocios** que atendieron a los clientes.

# Recopilación de datos en base a distintos intervalos de tiempo
![Screenshot%202021-05-26%20at%2009.30.03.png](attachment:Screenshot%202021-05-26%20at%2009.30.03.png)

# Variables potenciales (datos socioeconómicos y financieros) - por confirmar
* Edad del cliente (integer/float)
* Género del cliente (object)
* Estado civil del cliente (object)
* Saldo vigente del cliente (float)
* Clasificación de riesgo del cliente (integer/object)
* Domicilio del cliente (object)
* Tiempo de relación con Caja Maynas (float)
* Número de productos crediticios vigentes en Caja Maynas (integer)
* Interés devengado
* Clientes con perfil de riesgo de categoría "A" (excluir a clientes con clasificaciones de mayor riesgo)
* Respecto al model RFM (características adicionales):
* Número de meses transcurridos **desde el último desembolso** ("recency") (integer)
* Número **de desembolsos adicionales (créditos paralelos) desde el último desembolso**"("frequency") (integer) 
* **Interés devengado desde el último desembolso** ("monetary") (float)
* Número de meses transcurridos **desde la salida del último AdN** ("recency") (integer)
* Número **de desembolsos adicionales (créditos paralelos) desde la salida del último AdN**"("frequency") (integer) 
* **Interés devengado desde la salida del último AdN** ("monetary") (float)

In [6]:
import pandas as pd

In [9]:
datos = {"Número de cliente":[12345, 23348, 23898, 23930, 56999],
        "Edad" :[20, 21, 19, 18, 45],
        "Estado Civil": [0, 1, 1, 0, 0],
        "Saldo vigente": [20000, 28567, 5000, 35762, 67554],
        "Clasificación de Riesgo": ["A", "A", "C", "B", "A"],
        "Domicilio": ["Iquitos","Iquitos", "Iquitos", "Iquitos", "Iquitos"],
        "Tiempo de relación con Caja Maynas": [3, 5, 2, 8, 4],
        "Número de productos vigentes": [1, 2, 2, 1, 2],
        "Interés devengando": [4800, 8456, 1000, 9200, 20176],
        "Número de meses último desembolso": [24, 12, 18, 16, 20],
        "Número de desembolsos adicionales": [0,0,1,0, 0]
        }
df = pd.DataFrame(datos)
df

Unnamed: 0,Número de cliente,Edad,Estado Civil,Saldo vigente,Clasificación de Riesgo,Domicilio,Tiempo de relación con Caja Maynas,Número de productos vigentes,Interés devengando,Número de meses último desembolso,Número de desembolsos adicionales
0,12345,20,0,20000,A,Iquitos,3,1,4800,24,0
1,23348,21,1,28567,A,Iquitos,5,2,8456,12,0
2,23898,19,1,5000,C,Iquitos,2,2,1000,18,1
3,23930,18,0,35762,B,Iquitos,8,1,9200,16,0
4,56999,45,0,67554,A,Iquitos,4,2,20176,20,0


# Recursos requeridos
* Coordinación con un Gerente
* Asignación de una persona para envío de datos y atención de posibles dudas

# Entregables
* **Código fuente en python y/o en formato .ipynb**
* Resumen de proyecto (metodología utilizada, principales resultados)

# Hitos principales
* Fecha de la **puesta a la disposición de datos: viernes, 8 de junio**
* Toma de **decisión** respecto a factibilidad del proyecto (tamaño de muestra vs. tiempo disponible): **6 de junio**
* **Inicio** de análisis: **9 de junio**
* Presentación de **resultados: 22 de julio**
* Compartimiento de **código: 23 de julio**