# Análisis de datos CRM

## Inicialización

### Importación de librerías

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import plotly.express as px

# Para evitar notación científica
pd.options.display.float_format = '{:.2f}'.format
np.set_printoptions(suppress=True)

### Importación de los datos

In [2]:
path = "https://www.dropbox.com/scl/fi/ftktbvjbfqkghpy7qdp6w/CRMLlamadas.xlsx?rlkey=l07brh2d5omg5nhgi749lnlhi&dl=1"
df = pd.read_excel(path)

 # Elimina la columa "cliente.tipo" sin info relevante
df.drop(columns='cliente.tipo', inplace=True)

df.head()

Unnamed: 0,cliente.created_at,ID,pagare.created_at,pagare.monto_mora,pagare.fecha_mora,cuenta.activo,cuenta.mandante,cuenta.numero_cuenta,cuenta.monto_mora,causa.created_at,causa.abogado,campanha.ejecutivo,campanha.nombre,campanha.fecha_inicio,campanha.fecha_fin,ejecutivo,llamada.fecha_hora,llamada.fecha_hora_fin,llamada.es_entrante,llamada.categoria
0,2024-05-13 08:34:27.732,1930,2024-05-13 17:13:00.566,8155391,2023-10-25,False,Forum,SR2024050772,8155391.0,2024-05-14 12:56:55.862,mjalvarez@sottaycia.cl,jcastillo@sottaycia.cl,Forum Julio 2024,2024-07-01,2024-08-07,dbernales@sottaycia.cl,2024-07-10 08:29:32.315,2024-07-10 08:29:32.326,False,ContactoDirecto
1,2023-08-29 17:20:28.440,1108,2023-09-04 11:46:10.684,8250716,2023-04-05,True,Itau,SR2023090066,8250716.0,2023-09-04 13:04:37.372,mjalvarez@sottaycia.cl,dbernales@sottaycia.cl,Itaú Julio 2024,2024-07-01,2024-08-08,dbernales@sottaycia.cl,2024-07-10 08:30:33.661,2024-07-10 08:30:36.426,False,NoContesta
2,2023-08-29 17:20:28.440,1108,2023-09-04 11:46:10.684,8250716,2023-04-05,True,Itau,SR2023090066,8250716.0,2023-09-04 13:04:37.372,mjalvarez@sottaycia.cl,dbernales@sottaycia.cl,Itaú Julio 2024,2024-07-01,2024-08-08,dbernales@sottaycia.cl,2024-07-10 08:30:42.668,2024-07-10 08:30:45.660,False,NoContesta
3,2023-08-29 17:20:28.440,1108,2023-09-04 11:46:10.684,8250716,2023-04-05,True,Itau,SR2023090066,8250716.0,2023-09-04 13:04:37.372,mjalvarez@sottaycia.cl,dbernales@sottaycia.cl,Itaú Julio 2024,2024-07-01,2024-08-08,dbernales@sottaycia.cl,2024-07-10 08:30:51.571,2024-07-10 08:30:53.981,False,NoContesta
4,2023-08-29 17:20:28.440,1108,2023-09-04 11:46:10.684,8250716,2023-04-05,True,Itau,SR2023090066,8250716.0,2023-09-04 13:04:37.372,mjalvarez@sottaycia.cl,dbernales@sottaycia.cl,Itaú Julio 2024,2024-07-01,2024-08-08,dbernales@sottaycia.cl,2024-07-10 08:31:00.772,2024-07-10 08:31:03.654,False,NoContesta


## Eliminación de outliers por Monto de mora

In [3]:
df.describe()

Unnamed: 0,cliente.created_at,pagare.created_at,pagare.monto_mora,pagare.fecha_mora,cuenta.monto_mora,causa.created_at,campanha.fecha_inicio,campanha.fecha_fin,llamada.fecha_hora,llamada.fecha_hora_fin
count,10000,10000,10000.0,9966,10000.0,9064,9991,9991,10000,9808
mean,2023-09-18 10:47:31.396505856,2023-10-11 13:11:09.213680384,6401339.5,2023-06-21 12:24:07.802528512,6699176.97,2023-10-08 22:39:15.178393088,2024-07-01 06:49:36.999299328,2024-08-03 02:00:20.898809088,2024-07-12 10:07:40.551748608,2024-07-12 09:59:02.000260096
min,2021-10-01 10:47:49.582000,2016-07-28 20:00:00,1.0,2018-02-02 00:00:00,1.0,2016-07-28 20:00:00,2024-07-01 00:00:00,2024-07-13 00:00:00,2024-07-10 08:29:32.315000,2024-07-10 08:29:32.326000
25%,2023-04-12 17:03:06.375000064,2023-04-21 16:00:17.440000,3365532.75,2023-01-24 00:00:00,3369316.0,2023-05-26 15:54:42.172250112,2024-07-01 00:00:00,2024-08-07 00:00:00,2024-07-10 16:47:03.098749952,2024-07-10 16:46:09.819249920
50%,2023-09-20 09:31:36.615000064,2023-12-04 11:28:36.275000064,5653271.0,2023-07-15 00:00:00,5734587.0,2023-11-29 00:37:49.044500224,2024-07-01 00:00:00,2024-08-07 00:00:00,2024-07-11 15:50:53.138499840,2024-07-11 15:48:25.047500032
75%,2024-04-09 12:27:50.930000128,2024-05-03 13:22:30.236000,8306220.75,2024-01-05 00:00:00,8540066.0,2024-04-29 14:42:45.528999936,2024-07-01 00:00:00,2024-08-08 00:00:00,2024-07-12 16:33:48.844499968,2024-07-12 16:32:25.682249984
max,2024-07-12 14:40:08.110000,2024-08-08 13:57:48.910000,82293916.0,2024-07-12 00:00:00,158989192.0,2024-08-06 11:44:52.254000,2024-07-08 00:00:00,2024-08-10 00:00:00,2024-07-17 09:24:55.426000,2024-07-17 09:25:00.144000
std,,,4420571.8,,5338005.21,,,,,


In [4]:
df_copy = df.copy()

Se elimina la única observación que sumpera los 50 MM  de pesos y también las observaciones que igualan a $ 1 (supuesto que este monto está equivocado o es nulo).

In [5]:
df = df[(df['cuenta.monto_mora'] < 50000000) & (df['cuenta.monto_mora'] > 1)]

# Análisis a nivel de cliente

Se crea un DataFrame con datos del cliente una sola vez

In [6]:
clients = df[['ID', 'pagare.fecha_mora', 'cuenta.monto_mora', 'cuenta.activo', 'cuenta.mandante',]]
clients = clients.drop_duplicates()
clients.sort_values(by = 'cuenta.monto_mora', inplace=True)
clients.head()

Unnamed: 0,ID,pagare.fecha_mora,cuenta.monto_mora,cuenta.activo,cuenta.mandante
6128,6188,2022-12-05,219733.0,True,BK
1437,8111,2024-02-09,272834.0,True,Falabella CMR
4739,4179,2023-10-11,318537.0,True,Falabella CMR
1294,6189,2024-03-12,322548.0,True,Falabella CMR
4755,7206,2023-08-11,325204.0,True,Falabella CMR


In [7]:
clients.describe()

Unnamed: 0,pagare.fecha_mora,cuenta.monto_mora
count,2664,2678.0
mean,2023-06-22 13:42:09.729729792,6320192.61
min,2018-09-25 00:00:00,219733.0
25%,2023-02-10 00:00:00,3050595.5
50%,2023-08-01 12:00:00,5362834.5
75%,2024-01-10 00:00:00,8228224.75
max,2024-07-12 00:00:00,43763852.0
std,,4693269.94


In [8]:
clients.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2678 entries, 6128 to 8153
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   ID                 2678 non-null   object        
 1   pagare.fecha_mora  2664 non-null   datetime64[ns]
 2   cuenta.monto_mora  2678 non-null   float64       
 3   cuenta.activo      2678 non-null   bool          
 4   cuenta.mandante    2678 non-null   object        
dtypes: bool(1), datetime64[ns](1), float64(1), object(2)
memory usage: 107.2+ KB


In [9]:
# Boxplot para entender la distribución de las moras
fig = px.box(clients, y='cuenta.monto_mora', title='Boxplot del monto de las moras')

# Personalizar etiquetas
fig.update_layout(
    xaxis_title='Monto de mora',
    yaxis_title='Valores en pesos'
)
fig.show()

### Histograma

In [10]:
# Crear el histograma con plotly
fig = px.histogram(clients, x='cuenta.monto_mora', nbins=10, title='Montos de mora')

# Personalizar etiquetas
fig.update_layout(
    xaxis_title='Monto',
    yaxis_title='Frecuencia'
)

# Mostrar el gráfico
fig.show()

## A nivel de cuenta

### Monto de mora

In [11]:
total_arrear = clients[['cuenta.monto_mora', 'cuenta.mandante']].groupby('cuenta.mandante').sum()
total_arrear.columns = ['sum_total']
mean_arrear = clients[['cuenta.monto_mora', 'cuenta.mandante']].groupby('cuenta.mandante').mean()
mean_arrear.columns = ['mean_total']
total_arrear['mean_total'] = mean_arrear['mean_total']
total_arrear.sort_values(by = 'sum_total', ascending=False, inplace=True)
total_arrear

Unnamed: 0_level_0,sum_total,mean_total
cuenta.mandante,Unnamed: 1_level_1,Unnamed: 2_level_1
Falabella CMR,7727600307.0,5422877.41
Forum,4638787921.0,6424914.02
Itau,2793288884.0,9940529.84
BK,1092106345.0,9100886.21
Falabella Banco,673692355.0,5182248.88


In [12]:
fig = go.Figure()

# Total (suma)
fig.add_trace(go.Bar(
    x=total_arrear.index,
    y=total_arrear['sum_total'],
    name='Sum Total',
    marker_color='skyblue',
    yaxis='y1'
))

# Promedio
fig.add_trace(go.Scatter(
    x=total_arrear.index,
    y=total_arrear['mean_total'],
    name='Mean Total',
    mode='lines+markers',
    marker=dict(color='purple'),
    yaxis='y2'
))

# Configuración de los ejes
fig.update_layout(
    title='Detalle moras por cuenta',
    xaxis_title='Cuenta',
    yaxis=dict(
        title='Suma Total',
        titlefont=dict(color='royalblue'),
        tickfont=dict(color='royalblue'),
        side='left'
    ),
    yaxis2=dict(
        title='Mora promedio',
        titlefont=dict(color='purple'),
        tickfont=dict(color='purple'),
        overlaying='y',
        side='right'
    ),
    legend=dict(x=0.01, y=0.99, bgcolor='rgba(255,255,255,0.5)')
)

fig.show()

A partir de esta revisión, es posible afirmar que la cuenta más importante, a nivel de montos de mora, es **Falabella CMR**. No obstante, las cuentas de Falabella son las que reportan deudas promedio menores que el resto.

Las cuentas con deudas promedio superiores son **Itaú** y **BK**, lo que implica que son deudas más importantes y requieren un trabajo de cobranza superior.

De todas maneras, Falabella CMR es el principal cliente de Sotta Recovery, seguido de Forum.

Aquí me surgen las siguientes preguntas ¿Sotta Recovery cobra por contrato o es una comisión por monto? Si fuese por comisión, podrían implementarse acciones para aumentar los contratos con entidades que tengan morosos con montos más altos, como Itaú.

In [13]:
fig = px.box(clients, x='cuenta.mandante', y='cuenta.monto_mora', title='Boxplots por cuenta')
fig.update_layout(
    xaxis_title='Cuenta',
    yaxis_title='Monto Mora'
)
fig.show()

### Tiempo de mora

In [14]:
# Diferencia en días entre la fecha actual y la fecha del pagaré
clients['time_in_debt'] = (pd.Timestamp.today() - clients['pagare.fecha_mora']).dt.days

clients[['pagare.fecha_mora', 'time_in_debt']].head()

Unnamed: 0,pagare.fecha_mora,time_in_debt
6128,2022-12-05,617.0
1437,2024-02-09,186.0
4739,2023-10-11,307.0
1294,2024-03-12,154.0
4755,2023-08-11,368.0


In [15]:
clients['time_in_debt'].describe()

count   2664.00
mean     417.43
std      262.45
min       32.00
25%      216.00
50%      377.50
75%      550.00
max     2149.00
Name: time_in_debt, dtype: float64

In [16]:
# Crear el histograma con plotly
fig = px.histogram(clients, x='time_in_debt', nbins=10, title='Tiempo de mora')

# Personalizar etiquetas
fig.update_layout(
    xaxis_title='Tiempo de la deuda desde el vencimiento',
    yaxis_title='Frecuencia'
)

# Mostrar el gráfico
fig.show()

La mayoría de las moras son recientes, menores a dos años.

In [17]:
# Boxplot para entender la distribución de las moras
fig = px.box(clients, y='time_in_debt', title='Boxplot del tiempo de las moras')

# Personalizar etiquetas
fig.update_layout(
    xaxis_title='Tiempo de mora',
    yaxis_title='Días'
)
fig.show()

In [18]:
fig = px.box(clients, x='cuenta.mandante', y='time_in_debt', title='Boxplots por cuenta')
fig.update_layout(
    xaxis_title='Cuenta',
    yaxis_title='Tiempo de Mora'
)
fig.show()

BK muestra que las moras son más antiguas, las que además suelen ser monto más altos. Esto puede impactar las tasas de resultados de Sotta Recovery.

In [19]:
mean_time = clients[['time_in_debt', 'cuenta.mandante']].groupby('cuenta.mandante').mean()
mean_time.columns = ['mean_days']
mean_time.sort_values(by = 'mean_days', ascending=False, inplace=True)
mean_time

Unnamed: 0_level_0,mean_days
cuenta.mandante,Unnamed: 1_level_1
Falabella Banco,558.35
BK,553.15
Forum,538.08
Itau,490.78
Falabella CMR,317.85


A partir de lo observado en los gráficos anteriores, al menos el 75 % de los deudores tiene un tiempo de mora menor a los dos años. No obstante, vemos al mismo tiempo que clientes de CMR son los que tienen menos tiempo de deuda, pero representan la mayor cantidad de morosos.

# Éxito en contacto

In [20]:
df['llamada.categoria'].unique()

array(['ContactoDirecto', 'NoContesta', 'ContactoNegado',
       'ContactoIndirecto', 'NumeroNoExiste',
       'ContactoDirectoAutorizaContactos', 'Ocupado'], dtype=object)

Este planteamiento se basa en el supuesto de que `ContactoDirecto`,`ContactoIndirecto` y`ContactoDirectoAutorizaContactos` significan que el ejecutivo logró contactar a los deudores lo que podría calificar como un **éxito de la campaña**.

In [21]:
# Crear la nueva columna 'call_success'
df['call_success'] = df['llamada.categoria'].apply(lambda x: 1 if x in ['ContactoDirecto', 'ContactoIndirecto', 'ContactoDirectoAutorizaContactos'] else 0)
df[['llamada.categoria', 'call_success']].head()

Unnamed: 0,llamada.categoria,call_success
0,ContactoDirecto,1
1,NoContesta,0
2,NoContesta,0
3,NoContesta,0
4,NoContesta,0


In [22]:
# Agrupando los casos por campaña
campaigns_cases = df[['ID', 'campanha.nombre']]
campaigns_cases.drop_duplicates(inplace=True)
df_call_campaigns = campaigns_cases.groupby('campanha.nombre').count()
df_call_campaigns.columns = ['cases']

# Los casos que pudieron ser contactados
calls = df[['campanha.nombre','call_success']].groupby('campanha.nombre').sum()
df_call_campaigns['call_success'] = calls['call_success']

# Tasa de contacto
df_call_campaigns['rate'] = (df_call_campaigns['call_success'] / df_call_campaigns['cases'])*100
df_call_campaigns.sort_values(by = 'rate', ascending=False, inplace=True)
df_call_campaigns



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0_level_0,cases,call_success,rate
campanha.nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Exclusiva Correos Falabella CMR Julio 2024,22,21,95.45
Nueva Asignación Falabella Julio 2024,107,46,42.99
CMR Región Metropolitana Julio 2024,292,110,37.67
Contención Falabella Julio 2024,160,56,35.0
BK Julio 2024,112,36,32.14
Nueva Asignación Forum Julio 2024,92,22,23.91
Forum Julio 2024,511,118,23.09
Banco Falabella Julio 2024,122,28,22.95
Itaú Julio 2024,247,55,22.27
CMR Puerto Montt Julio 2024,59,8,13.56


La campaña más exitosa, en cuanto logró contactar a la mayor tasa de morosos, fue "Exclusiva Correos Falabella CMR Julio 2024", sin embargo, eran pocas personas que había que cubrir. Esto a nivel relativo.

A nivel de magnitud, las dos campañas más exitosas fueron, _Forum Julio 2024_ y _CMR Región Metropolitana Julio 2024_, donde se logró contactar a la mayor cantidad de personas deudoras.

Preguntas por responde: ¿qué implican estos contactos telefónicos?

## Éxito de los ejecutivos

In [23]:
# Agrupando los casos por ejecutivo
manager_cases = df[['ID', 'campanha.ejecutivo']]
manager_cases.drop_duplicates(inplace=True)
df_call_manager = manager_cases.groupby('campanha.ejecutivo').count()
df_call_manager.columns = ['cases']

# Los casos que pudieron ser contactados
calls = df[['campanha.ejecutivo','call_success']].groupby('campanha.ejecutivo').sum()
df_call_manager['call_success'] = calls['call_success']

# Tasa de contacto
df_call_manager['rate'] = (df_call_manager['call_success'] / df_call_manager['cases'])*100
df_call_manager.sort_values(by = 'rate', ascending=False, inplace=True)
df_call_manager



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



Unnamed: 0_level_0,cases,call_success,rate
campanha.ejecutivo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cmunozc@sottaycia.cl,81,55,67.9
dbernales@sottaycia.cl,97,51,52.58
mgomez@sottaycia.cl,269,90,33.46
creyes@sottaycia.cl,189,62,32.8
fcontreras@sottaycia.cl,196,64,32.65
amarin@sottaycia.cl,223,64,28.7
nalamos@sottaycia.cl,186,49,26.34
aibacache@sottaycia.cl,183,43,23.5
bfernandez@sottaycia.cl,82,12,14.63
jcastillo@sottaycia.cl,272,33,12.13


"cmunoz" fue el caso más exitoso. Una métrica así puede ser relevante para asignar trabajo futuro o entregar compensaciones. 