# Consigna

## Problema de Retención de Clientes en el Banco PY

Se desea resolver el siguiente problema:

El banco PY está notando que muchos clientes se están acercando a cerrar su cuenta, lo cual les preocupa. Decidieron implementar una estrategia de retención muy agresiva que, a su vez, es costosa ya que bonifica productos y otorga descuentos que no se ven normalmente en el mercado.

Se ha observado en un pequeño experimento que, a pesar de ser una oferta irresistible, cuando un cliente le indica al banco que se quiere dar de baja, ya no hay vuelta atrás. Por esta razón, se desea que los ejecutivos sepan con anticipación cuándo un cliente tiene altas probabilidades de pedir la baja, a pesar de que el motivo de acercarse al banco sea otro. De esta manera, al recibir al cliente, ya se pueden preparar para retenerlos.

## Descripción Operativa

Cuando un cliente entra en una sucursal, tiene un tótem en donde se registra e indica el motivo de su visita. Esto le genera el turno y, con él, espera a ser atendido por un ejecutivo.

El banco posee varias sucursales en Asunción que se gestionan en dos zonas: una céntrica y otra en las afueras. Esta definición no solo tiene que ver con la locación, sino también con el comportamiento y la tolerancia de los clientes.

Hoy en día, el equipo de Data Science tiene funcionando un modelo, pero no es suficientemente bueno para la nueva estrategia que propone el equipo comercial, por lo que desean reemplazarlo por uno nuevo.

---

# Objetivos

- Desarrollar un modelo de Machine Learning que prediga **churn**.
- Definir cómo sería la implementación y cuándo se usaría.
- Explicar la elección del algoritmo utilizado.
- Explicar los resultados obtenidos (métricas) y si tiene el rendimiento necesario para salir a producción.
- Explicar cuáles son las variables que más afectan a la predicción.
- Contestar las siguientes preguntas:
  - ¿El modelo final elegido es bueno? Justificar.
  - ¿Existe **overfitting** o **underfitting**?

> ⚠️ **ACLARACIONES:**  
> - Se tendrá en cuenta la prolijidad del informe.  
> - Se tendrá en cuenta la legibilidad del código.  
> - De ser necesario, dejar asentado los supuestos utilizados por escrito.

---

# Recursos Disponibles

Para resolver el desafío, se cuenta con:

- Un dataset que contiene las visitas de nuestros clientes a las sucursales y otro de zonas. Esta información consta de datos obtenidos del tótem y del CRM del ejecutivo.
- Un modelo actual (función de Python para hacer predicciones).
- Datos de costo promedio de la estrategia de retención y rentabilidad esperada:
  - Rentabilidad esperada del cliente en los 3 primeros meses luego de retenerlo.
  - Rentabilidad esperada del cliente en el primer año luego de retenerlo.
  - Rentabilidad del cliente en la última acción de darse de baja.

---

# Descripción del Dataset

| Campo                  | Descripción |
|------------------------|-------------|
| `cliente_id`           | ID del cliente que se registra en el tótem de la sucursal |
| `segmento_cliente`     | Segmento del cliente, determinado por un modelo de ML según comportamiento |
| `tipo_asistencia`      | Acción que declara el cliente al registrarse en el tótem. En los últimos meses se volvió opcional |
| `descripcion_atencion` | Descripción hablada o escrita del motivo de visita, traducida por un modelo de IA |
| `coordenadas_sucursal` | Coordenadas geográficas de la sucursal donde se realiza la atención |
| `inicio_atencion_utc`  | Fecha y hora del registro en tótem (UTC+0) |
| `fin_atencion`         | Fecha y hora de fin de atención registrada desde el CRM (UTC-3) |
| `puntos_de_loyalty`    | Puntos acumulados en el sistema de lealtad del banco |
| `edad`                 | Edad del cliente |
| `churn`                | Indica si luego de la atención el cliente se dio de baja del banco (campo objetivo) |
| `zona`                 | Zona donde se realizó la atención (Céntrica o Periférica) |
| `poligono`             | Coordenadas del contorno del polígono correspondiente a cada zona |

---

# Definición de Costos y Rentabilidades

```python
costo_retencion = 20
rentabilidad_corto = 8      # Rentabilidad en los primeros 3 meses
rentabilidad_largo = 50     # Rentabilidad en el primer año
rentabilidad_baja = -2      # Pérdida por baja del cliente




# Modelo Actual

El modelo actual que utiliza el banco para predecir churn es una función escrita en Python. Este modelo se basa **únicamente en el campo `tipo_asistencia`** que el cliente declara al registrarse en el tótem. No tiene en cuenta ningún otro dato del cliente, lo cual lo hace muy limitado para una estrategia de retención más sofisticada.

A continuación se muestra la implementación actual:

```python
import random

def predecir_churn(tipo_asistencia):
    tipo_asistencia = str(tipo_asistencia)
    if tipo_asistencia.lower() == 'problema':
        return 1.0  # Siempre devuelve 1 si es un problema
    elif tipo_asistencia.lower() == 'reclamo':
        return 0.8 if random.random() < 0.5 else 0  # 50% de probabilidad para reclamos
    else:
        return 0