# üìä **PROYECTO FINAL ‚Äì IDENTIFICACI√ìN DE OPERADORES INEFICACES**

---

## üéØ **OBJETIVO DEL PROYECTO**

El objetivo de este proyecto es analizar el desempe√±o de los operadores del servicio **CallMeMaybe** para identificar aquellos con bajo rendimiento operativo.

---

## üö® **CRITERIOS DE INEFICIENCIA**

Un operador se considerar√° **INEFICAZ** si cumple una o m√°s de las siguientes condiciones:

- üî¥ Presenta una alta proporci√≥n de llamadas entrantes perdidas  
- ‚è≥ Tiene tiempos de espera elevados  
- üìâ Realiza pocas llamadas salientes cuando corresponde  

---

## üîé **ALCANCE DEL AN√ÅLISIS**

Para lograrlo, se realizar√°:

- üìä An√°lisis exploratorio de datos  
- üìà Construcci√≥n de m√©tricas de desempe√±o  
- üö® Identificaci√≥n de operadores ineficaces  
- üî¨ Pruebas estad√≠sticas para validar los hallazgos  

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

sns.set(style="whitegrid")

In [3]:
calls = pd.read_csv('telecom_dataset_new.csv')
clients = pd.read_csv('telecom_clients.csv')

In [4]:
calls.head()

Unnamed: 0,user_id,date,direction,internal,operator_id,is_missed_call,calls_count,call_duration,total_call_duration
0,166377,2019-08-04 00:00:00+03:00,in,False,,True,2,0,4
1,166377,2019-08-05 00:00:00+03:00,out,True,880022.0,True,3,0,5
2,166377,2019-08-05 00:00:00+03:00,out,True,880020.0,True,1,0,1
3,166377,2019-08-05 00:00:00+03:00,out,True,880020.0,False,1,10,18
4,166377,2019-08-05 00:00:00+03:00,out,False,880022.0,True,3,0,25


In [5]:
calls.info()

<class 'pandas.DataFrame'>
RangeIndex: 53902 entries, 0 to 53901
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   user_id              53902 non-null  int64  
 1   date                 53902 non-null  str    
 2   direction            53902 non-null  str    
 3   internal             53785 non-null  object 
 4   operator_id          45730 non-null  float64
 5   is_missed_call       53902 non-null  bool   
 6   calls_count          53902 non-null  int64  
 7   call_duration        53902 non-null  int64  
 8   total_call_duration  53902 non-null  int64  
dtypes: bool(1), float64(1), int64(4), object(1), str(2)
memory usage: 3.3+ MB


In [6]:
calls.describe()

Unnamed: 0,user_id,operator_id,calls_count,call_duration,total_call_duration
count,53902.0,45730.0,53902.0,53902.0,53902.0
mean,167295.344477,916535.993002,16.451245,866.684427,1157.133297
std,598.883775,21254.123136,62.91717,3731.791202,4403.468763
min,166377.0,879896.0,1.0,0.0,0.0
25%,166782.0,900788.0,1.0,0.0,47.0
50%,167162.0,913938.0,4.0,38.0,210.0
75%,167819.0,937708.0,12.0,572.0,902.0
max,168606.0,973286.0,4817.0,144395.0,166155.0


In [7]:
# Convertir fecha
calls['date'] = pd.to_datetime(calls['date'])

# Revisar valores nulos
calls.isnull().sum()

user_id                   0
date                      0
direction                 0
internal                117
operator_id            8172
is_missed_call            0
calls_count               0
call_duration             0
total_call_duration       0
dtype: int64

In [8]:
calls[calls['operator_id'].isnull()].head()

Unnamed: 0,user_id,date,direction,internal,operator_id,is_missed_call,calls_count,call_duration,total_call_duration
0,166377,2019-08-04 00:00:00+03:00,in,False,,True,2,0,4
7,166377,2019-08-05 00:00:00+03:00,in,False,,True,6,0,35
9,166377,2019-08-06 00:00:00+03:00,in,False,,True,4,0,62
17,166377,2019-08-07 00:00:00+03:00,in,False,,True,2,0,24
27,166377,2019-08-12 00:00:00+03:00,in,False,,True,2,0,34


In [9]:
calls[calls['operator_id'].isnull()]['is_missed_call'].value_counts()

is_missed_call
True     8050
False     122
Name: count, dtype: int64

In [10]:
calls_clean = calls.dropna(subset=['operator_id']).copy()

In [11]:
calls_clean.shape

(45730, 9)

In [12]:
calls_clean['waiting_time'] = calls_clean['total_call_duration'] - calls_clean['call_duration']

In [13]:
calls_clean[['call_duration', 'total_call_duration', 'waiting_time']].head()

Unnamed: 0,call_duration,total_call_duration,waiting_time
1,0,5,5
2,0,1,1
3,10,18,8
4,0,25,25
5,3,29,26


In [14]:
operator_metrics = calls_clean.groupby('operator_id').agg(
    total_calls=('calls_count', 'sum'),
    incoming_calls=('calls_count', lambda x: x[calls_clean.loc[x.index, 'direction'] == 'in'].sum()),
    outgoing_calls=('calls_count', lambda x: x[calls_clean.loc[x.index, 'direction'] == 'out'].sum()),
    missed_calls=('calls_count', lambda x: x[calls_clean.loc[x.index, 'is_missed_call'] == True].sum()),
    avg_waiting_time=('waiting_time', 'mean'),
    avg_call_duration=('call_duration', 'mean')
).reset_index()

In [15]:
operator_metrics.head()

Unnamed: 0,operator_id,total_calls,incoming_calls,outgoing_calls,missed_calls,avg_waiting_time,avg_call_duration
0,879896.0,1131,60,1071,255,110.671875,650.476562
1,879898.0,7974,118,7856,2594,450.087649,1111.067729
2,880020.0,54,8,46,30,15.181818,104.090909
3,880022.0,219,8,211,118,57.565789,240.842105
4,880026.0,2439,25,2414,696,121.171717,856.939394


In [16]:
operator_metrics['missed_rate'] = operator_metrics['missed_calls'] / operator_metrics['total_calls']

operator_metrics['incoming_ratio'] = operator_metrics['incoming_calls'] / operator_metrics['total_calls']

operator_metrics['outgoing_ratio'] = operator_metrics['outgoing_calls'] / operator_metrics['total_calls']

In [17]:
operator_metrics.head()

Unnamed: 0,operator_id,total_calls,incoming_calls,outgoing_calls,missed_calls,avg_waiting_time,avg_call_duration,missed_rate,incoming_ratio,outgoing_ratio
0,879896.0,1131,60,1071,255,110.671875,650.476562,0.225464,0.05305,0.94695
1,879898.0,7974,118,7856,2594,450.087649,1111.067729,0.325307,0.014798,0.985202
2,880020.0,54,8,46,30,15.181818,104.090909,0.555556,0.148148,0.851852
3,880022.0,219,8,211,118,57.565789,240.842105,0.538813,0.03653,0.96347
4,880026.0,2439,25,2414,696,121.171717,856.939394,0.285363,0.01025,0.98975


In [18]:
operator_metrics[['missed_rate', 'avg_waiting_time', 'outgoing_calls']].describe()

Unnamed: 0,missed_rate,avg_waiting_time,outgoing_calls
count,1092.0,1092.0,1092.0
mean,0.290327,215.446189,612.951465
std,0.248426,504.915578,3103.139223
min,0.0,0.0,0.0
25%,0.061557,23.058824,2.0
50%,0.270196,46.259878,36.5
75%,0.428571,155.541011,388.75
max,1.0,5907.443038,64897.0


In [19]:
# Definir umbrales
missed_threshold = operator_metrics['missed_rate'].quantile(0.75)
waiting_threshold = operator_metrics['avg_waiting_time'].quantile(0.75)
outgoing_threshold = operator_metrics['outgoing_calls'].quantile(0.25)

# Crear indicadores booleanos
operator_metrics['high_missed'] = operator_metrics['missed_rate'] > missed_threshold
operator_metrics['high_wait'] = operator_metrics['avg_waiting_time'] > waiting_threshold
operator_metrics['low_outgoing'] = operator_metrics['outgoing_calls'] < outgoing_threshold

# Contar cu√°ntas condiciones cumple cada operador
operator_metrics['inefficiency_score'] = (
    operator_metrics['high_missed'].astype(int) +
    operator_metrics['high_wait'].astype(int) +
    operator_metrics['low_outgoing'].astype(int)
)

# Definir ineficientes (2 o m√°s condiciones)
operator_metrics['is_inefficient'] = operator_metrics['inefficiency_score'] >= 2

In [20]:
operator_metrics['is_inefficient'].value_counts()

is_inefficient
False    943
True     149
Name: count, dtype: int64

In [21]:
inefficient = operator_metrics[operator_metrics['is_inefficient'] == True]
efficient = operator_metrics[operator_metrics['is_inefficient'] == False]

inefficient.shape, efficient.shape

((149, 15), (943, 15))

In [22]:
operator_metrics.groupby('is_inefficient')[['missed_rate', 'avg_waiting_time', 'outgoing_calls']].mean()

Unnamed: 0_level_0,missed_rate,avg_waiting_time,outgoing_calls
is_inefficient,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
False,0.24374,127.027277,437.707317
True,0.585171,775.03702,1722.04698


In [23]:
from scipy.stats import ttest_ind

t_stat, p_value = ttest_ind(
    inefficient['missed_rate'],
    efficient['missed_rate'],
    equal_var=False
)

t_stat, p_value

(np.float64(19.744386619756604), np.float64(2.483107559058e-50))

## üî¨ **PRUEBA DE HIP√ìTESIS ‚Äì MISSED RATE**

Se realiz√≥ una **prueba t de Welch** para comparar la tasa de llamadas perdidas entre operadores eficientes e ineficientes.

---

### üìå **HIP√ìTESIS**

- **H‚ÇÄ:** No existe diferencia en la tasa de llamadas perdidas entre ambos grupos.  
- **H‚ÇÅ:** Existe una diferencia significativa en la tasa de llamadas perdidas.  

---

### üìä **RESULTADO**

- **p-value ‚âà 0.000**
- Se **rechaza H‚ÇÄ**.

---

### üéØ **CONCLUSI√ìN**

Existe evidencia estad√≠sticamente significativa de que los operadores clasificados como **INEFICIENTES** presentan una tasa de llamadas perdidas considerablemente mayor que los operadores eficientes.

In [24]:
t_stat_wait, p_value_wait = ttest_ind(
    inefficient['avg_waiting_time'],
    efficient['avg_waiting_time'],
    equal_var=False
)

t_stat_wait, p_value_wait

(np.float64(8.770319042749664), np.float64(3.0361588297904026e-15))

## üî¨ **PRUEBA DE HIP√ìTESIS ‚Äì WAITING TIME**

Se realiz√≥ una **prueba t de Welch** para comparar el tiempo promedio de espera entre operadores eficientes e ineficientes.

---

### üìå **HIP√ìTESIS**

- **H‚ÇÄ:** No existe diferencia en el tiempo promedio de espera entre ambos grupos.  
- **H‚ÇÅ:** Existe una diferencia significativa en el tiempo promedio de espera.  

---

### üìä **RESULTADO**

- **p-value ‚âà 0.000**
- Se **rechaza H‚ÇÄ**.

---

### üéØ **CONCLUSI√ìN**

Existe evidencia estad√≠sticamente significativa de que los operadores clasificados como **INEFICIENTES** presentan tiempos de espera considerablemente mayores que los operadores eficientes.

# üìä **PROYECTO FINAL ‚Äì IDENTIFICACI√ìN DE OPERADORES INEFICIENTES**

---

## üß≠ **INTRODUCCI√ìN**

El objetivo de este proyecto es analizar el desempe√±o de los operadores del servicio de telefon√≠a virtual **CallMeMaybe** para identificar aquellos con bajo rendimiento operativo.

Un operador se considera **ineficiente** cuando presenta:
- üî¥ Alta tasa de llamadas entrantes perdidas  
- ‚è≥ Tiempos de espera elevados  
- üìâ Baja productividad en llamadas salientes cuando corresponde  

El an√°lisis incluye exploraci√≥n de datos, construcci√≥n de m√©tricas, validaci√≥n estad√≠stica y recomendaciones de negocio.

---

## üìÇ **DESCRIPCI√ìN DE LOS DATOS**

### **FUENTES DE INFORMACI√ìN**
- Dataset de llamadas (`telecom_dataset`)
- Dataset de clientes (`telecom_clients`)

### **VARIABLES CLAVE**
- `direction` (entrante / saliente)  
- `is_missed_call`  
- `call_duration`  
- `total_call_duration`  
- `operator_id`

---

## üßº **PREPARACI√ìN Y LIMPIEZA DE DATOS**

### **TRATAMIENTO DE VALORES NULOS**
- Se identificaron llamadas entrantes sin operador asignado.
- Estas llamadas corresponden mayoritariamente a llamadas perdidas antes de ser atendidas.
- ‚ùå No se consideran para evaluar desempe√±o individual.

### **CREACI√ìN DE VARIABLES**
- ‚è± `waiting_time = total_call_duration - call_duration`

---

## üìä **AN√ÅLISIS EXPLORATORIO DE DATOS (EDA)**

### **PATRONES GENERALES**
- Distribuci√≥n de duraci√≥n de llamadas
- Relaci√≥n entre llamadas internas y externas
- Volumen de llamadas por operador

*(Las visualizaciones se presentan en las secciones correspondientes y dashboards)*

---

## üéØ **CONSTRUCCI√ìN DE M√âTRICAS DE DESEMPE√ëO**

### **KPIs POR OPERADOR**
- üìû Total de llamadas
- üì• Llamadas entrantes
- üì§ Llamadas salientes
- ‚ùå Llamadas perdidas
- ‚è≥ Tiempo promedio de espera
- üìä Tasa de llamadas perdidas (`missed_rate`)

---

## üö® **DEFINICI√ìN DE OPERADORES INEFICIENTES**

Un operador es clasificado como **ineficiente** si cumple **al menos 2** de las siguientes condiciones:

- üî¥ `missed_rate` > percentil 75  
- ‚è≥ `avg_waiting_time` > percentil 75  
- üìâ `outgoing_calls` < percentil 25  

Este enfoque est√° basado en **percentiles**, lo que permite una evaluaci√≥n relativa y estad√≠sticamente justificada.

---

## üë• **RESULTADOS DE CLASIFICACI√ìN**

### **DISTRIBUCI√ìN DE OPERADORES**
- Total de operadores analizados: **1092**
- Operadores eficientes: **943**
- Operadores ineficientes: **149**
- Proporci√≥n de ineficiencia: **13.6%**

---

## üìà **COMPARACI√ìN ENTRE GRUPOS**

### **PROMEDIOS POR GRUPO**

| M√©trica | Eficientes | Ineficientes |
|-------|------------|--------------|
| üìû Tasa de llamadas perdidas | 0.24 | 0.58 |
| ‚è≥ Tiempo promedio de espera | 127 seg | 775 seg |
| üì§ Llamadas salientes | 437 | 1722 |

---

## üî¨ **VALIDACI√ìN ESTAD√çSTICA**

### **PRUEBA DE HIP√ìTESIS ‚Äì MISSED RATE**

- **H‚ÇÄ:** No existe diferencia entre grupos  
- **H‚ÇÅ:** Existe una diferencia significativa  

üìå Resultado:
- p-value ‚âà 0.000  
- ‚úî Se rechaza H‚ÇÄ  

---

### **PRUEBA DE HIP√ìTESIS ‚Äì WAITING TIME**

- **H‚ÇÄ:** No existe diferencia entre grupos  
- **H‚ÇÅ:** Existe una diferencia significativa  

üìå Resultado:
- p-value ‚âà 0.000  
- ‚úî Se rechaza H‚ÇÄ  

---

## üß† **INTERPRETACI√ìN DE NEGOCIO**

Los operadores ineficientes presentan:
- üî¥ M√°s del doble de tasa de llamadas perdidas
- ‚è≥ Tiempos de espera hasta 6 veces mayores
- üìä Alta variabilidad operativa

Estos patrones sugieren problemas en:
- Gesti√≥n del tiempo
- Carga de trabajo
- Procesos internos
- Capacitaci√≥n

---

## üöÄ **RECOMENDACIONES**

### üìä **MONITOREO CONTINUO**
Implementar dashboards con:
- Missed rate
- Waiting time
- Productividad por operador

### üéì **CAPACITACI√ìN DIRIGIDA**
Entrenamiento espec√≠fico para operadores con m√©tricas cr√≠ticas.

### ‚öñ **BALANCE DE CARGA**
Reasignar volumen de llamadas para evitar sobrecarga.

### üîÅ **SEGUIMIENTO PERI√ìDICO**
Evaluaci√≥n mensual usando esta metodolog√≠a.

---

## üéØ **IMPACTO ESPERADO**

- üìâ Reducci√≥n de llamadas perdidas  
- ‚≠ê Mejora en satisfacci√≥n del cliente  
- üìà Mayor eficiencia operativa  

---

## üìå **CONCLUSI√ìN FINAL**

La metodolog√≠a propuesta permite identificar de forma objetiva y estad√≠sticamente s√≥lida a los operadores con bajo desempe√±o, brindando una herramienta accionable para la toma de decisiones operativas y estrat√©gicas.