# Proyecto Final: Identificación de Operadores Ineficaces en CallMeMaybe
### Introducción

La empresa CallMeMaybe ofrece un servicio de telefonía virtual que permite a organizaciones gestionar grandes volúmenes de llamadas entrantes y salientes mediante sus operadores. En este contexto, la eficiencia de los operadores es clave para garantizar la calidad del servicio, reducir los tiempos de espera y evitar pérdidas de clientes.

Un operador se considera ineficaz cuando presenta una combinación de los siguientes comportamientos:

Alta cantidad de llamadas entrantes perdidas (internas y externas).

Tiempos de espera prolongados en llamadas entrantes (diferencia entre la duración total y la duración efectiva de la llamada).

Bajo número de llamadas salientes, en los casos en que su función implique realizarlas.

Este proyecto tiene como finalidad analizar el desempeño de los operadores a partir de los datos proporcionados y ofrecer a los supervisores información clara para tomar decisiones estratégicas que mejoren la atención al cliente.

### Objetivos

1.- Explorar y preparar los datos de uso del servicio de telefonía virtual CallMeMaybe.

2.- Analizar métricas clave (llamadas perdidas, tiempos de espera, número de llamadas) para evaluar la eficacia de cada operador.

3.- Identificar patrones de ineficacia en los operadores a partir de las estadísticas de llamadas.

4.- Aplicar pruebas estadísticas para comprobar hipótesis sobre diferencias entre operadores eficaces e ineficaces.

5.- Desarrollar visualizaciones y dashboards que permitan monitorear el desempeño de los operadores en distintos escenarios (llamadas internas, externas, entrantes, salientes).

6.- Generar conclusiones y recomendaciones que ayuden a la empresa a optimizar el servicio y mejorar la experiencia de sus clientes.

# 2. Preparación del entorno  

En esta sección se configuran las librerías necesarias para el análisis, así como la carga inicial de los datasets.  

### Librerías a utilizar
- **pandas**: para la manipulación y análisis de datos.  
- **numpy**: para operaciones numéricas y estadísticas básicas.  
- **matplotlib / seaborn**: para visualizaciones gráficas.  
- **plotly.express**: para dashboards interactivos.  
- **scipy.stats**: para pruebas de hipótesis estadísticas.  

Posteriormente, se cargan los datasets:  
- `telecom_dataset_us.csv`: contiene información sobre las llamadas (entrantes, salientes, internas, duración, pérdidas, etc.).  
- `telecom_clients_us.csv`: contiene información de los clientes (ID, tarifa, fecha de registro).  


# 3. Exploración inicial de los datos (EDA básico)

En este paso se realiza un **análisis exploratorio inicial** de los datasets para comprender su estructura, calidad y posibles problemas que deban corregirse antes del análisis profundo.  

### Actividades principales:
1. **Revisión de la estructura de los datos**  

2. **Estadísticas descriptivas básicas**  

3. **Detección de valores nulos y duplicados**  

4. **Revisión de categorías**   

5. **Primeras visualizaciones**  
 
El objetivo de este paso es garantizar que los datos estén **limpios y bien comprendidos**, antes de pasar al análisis específico de la eficacia de los operadores.


# 4. Análisis exploratorio enfocado en la ineficacia

En este paso se busca evaluar los factores que determinan si un operador puede considerarse **ineficaz**.  
Se analizan tres dimensiones clave:

### 1. Llamadas perdidas
- Calcular el número y porcentaje de llamadas **entrantes perdidas** por operador.  
- Comparar operadores con mayor proporción de llamadas perdidas.  
- Diferenciar entre llamadas **internas** y **externas**.

### 2. Tiempos de espera
- Analizar la diferencia entre:
  - `call_duration` (tiempo efectivo en conversación).  
  - `total_call_duration` (incluye el tiempo de espera).  
- El **tiempo de espera promedio** será:  
  \[
  \text{tiempo_espera} = \text{total_call_duration} - \text{call_duration}
  \]
- Detectar operadores con tiempos de espera más prolongados.

### 3. Llamadas salientes
- Evaluar la cantidad de llamadas **salientes (`direction = out`)** realizadas por cada operador.  
- Identificar operadores que realizan pocas llamadas salientes en comparación con otros de su mismo cliente o tarifa.

### 4. Comparación por cliente/tarifa
- Analizar si ciertos planes tarifarios están asociados con mayor ineficacia.  
- Comparar métricas por `user_id` y `tariff_plan`.

### 5. Visualizaciones
- Gráficos de barras con el top de operadores con mayor % de llamadas perdidas.  
- Boxplots para comparar tiempos de espera entre operadores.  
- Histogramas o distribuciones del número de llamadas salientes.  

El objetivo es **detectar patrones claros de ineficacia** y preparar el terreno para establecer criterios de clasificación de operadores ineficaces en el siguiente paso.


# 5. Identificación de operadores ineficaces

En este paso se establecen criterios claros para clasificar a los operadores según su nivel de eficacia.  
El objetivo es crear un **ranking de operadores** que permita detectar de manera objetiva quiénes son los menos eficientes.  

### 1. Definir umbrales de ineficacia
- **Llamadas perdidas:** operadores con más del **30%** de llamadas entrantes perdidas.  
- **Tiempo de espera:** operadores cuyo **tiempo promedio de espera** esté por encima del percentil 75 del grupo.  
- **Llamadas salientes:** operadores con un número de llamadas salientes significativamente menor al promedio de su grupo.  

*(Los valores de los umbrales pueden ajustarse durante el análisis según la distribución real de los datos).*

### 2. Crear métricas de eficacia
- Calcular para cada operador:
  - Porcentaje de llamadas perdidas.  
  - Tiempo promedio de espera.  
  - Número de llamadas salientes.  

### 3. Clasificación de operadores
- Etiquetar a cada operador como:
  - **Eficaz** → cumple con los estándares en todas las métricas.  
  - **Ineficaz** → incumple uno o más criterios definidos.  

### 4. Ranking de operadores
- Generar una tabla con los operadores ordenados según su nivel de ineficacia.  
- Incluir métricas clave para comparación.  

### 5. Visualizaciones recomendadas
- Tabla/resumen con operadores y su clasificación.  
- Heatmap o gráfico de dispersión que muestre llamadas perdidas vs tiempo de espera.  
- Gráficos comparativos entre operadores eficaces e ineficaces.  

El resultado de este paso será una **lista clara de operadores ineficaces**, que servirá como insumo para la fase de pruebas estadísticas.


# 6. Pruebas estadísticas

En este paso se aplican pruebas de hipótesis para verificar si existen diferencias **estadísticamente significativas** entre operadores eficaces e ineficaces.  
Esto permite fundamentar las conclusiones con base en evidencia estadística.  

### 1 Planteamiento de hipótesis
Ejemplos de hipótesis que se pueden probar:  

- **Hipótesis 1 (tiempos de espera):**  
  - H0: No hay diferencia significativa en el tiempo promedio de espera entre operadores eficaces e ineficaces.  
  - H1: Sí existe diferencia significativa en el tiempo promedio de espera.  

- **Hipótesis 2 (llamadas perdidas):**  
  - H0: No hay diferencia en el porcentaje de llamadas perdidas entre ambos grupos.  
  - H1: Los operadores ineficaces tienen un mayor porcentaje de llamadas perdidas.  

- **Hipótesis 3 (llamadas salientes):**  
  - H0: No hay diferencia en el número de llamadas salientes realizadas por operadores eficaces vs ineficaces.  
  - H1: Los operadores ineficaces realizan menos llamadas salientes.  

### 2 Selección de pruebas estadísticas
Dependiendo de la distribución de los datos:  
- Si los datos siguen una distribución normal → **t-test de Student** para comparar medias.  
- Si los datos no son normales o hay diferencias en varianzas → **prueba no paramétrica Mann-Whitney U**.  
- Para proporciones de llamadas perdidas → **prueba de proporciones (Chi-cuadrado o z-test)**.  

### 3 Nivel de significancia
- Se utilizará un **α = 0.05** como nivel de significancia.  
- Si p-valor < α → se rechaza la hipótesis nula (H0).  
- Si p-valor ≥ α → no hay evidencia suficiente para rechazar H0.  

### 4 Interpretación
- Analizar los resultados de cada prueba y determinar si las diferencias observadas entre operadores eficaces e ineficaces son **estadísticamente relevantes**.  
- Relacionar los hallazgos con las métricas de desempeño (llamadas perdidas, tiempos de espera, llamadas salientes).  


# 7. Dashboards y visualizaciones

En este paso se desarrollan gráficos y visualizaciones interactivas que permitan explorar los datos y detectar patrones de ineficacia de manera visual.  
El objetivo es construir un **panel de control (dashboard)** que facilite la toma de decisiones a supervisores y analistas.

### 1 Visualizaciones sugeridas (EDA general)
- **Histograma** de la duración de llamadas (`call_duration`).  
- **Gráfico circular (pie chart)** que muestre la proporción de llamadas **internas vs externas**.  
- **Serie temporal (line chart)** del número de llamadas por día.  

### 2 Visualizaciones enfocadas en ineficacia
- **Barras comparativas** de los operadores con mayor porcentaje de llamadas perdidas.  
- **Boxplots** de tiempo de espera por operador para detectar variabilidad.  
- **Gráficos de dispersión (scatter)** cruzando porcentaje de llamadas perdidas vs. tiempo de espera promedio.  

### 3 Dashboards interactivos
Utilizando **Plotly Express**, se pueden agregar:
- Filtros por:
  - Tipo de llamada (`direction`: entrante o saliente).  
  - Naturaleza de la llamada (`internal`: interna o externa).  
- Gráficos dinámicos que permitan resaltar operadores específicos.  

### 4 Interpretación esperada
- Identificar visualmente a los operadores menos eficaces.  
- Observar tendencias a lo largo del tiempo (por ejemplo, aumento de llamadas perdidas en ciertos días).  
- Comparar el desempeño entre clientes o planes tarifarios.  


# 8. Conclusiones

En este paso se resumen los hallazgos principales del análisis y se plantean recomendaciones prácticas para la empresa **CallMeMaybe**.  

### 1 Resumen de hallazgos

### 2 Impacto potencial en el servicio 

### 3 Recomendaciones 

### 4 Próximos pasos


# 9. Referencias

En este proyecto se deberán incluir entre **5 y 10 fuentes de referencia** que respalden la metodología utilizada.  
Las fuentes podrán ser:

- Documentación oficial de librerías (ej. pandas, numpy, scipy, matplotlib, seaborn, plotly).  
- Artículos académicos o técnicos relacionados con análisis de telecomunicaciones.  
- Blogs especializados en análisis de datos y visualización.  
- Material de cursos o manuales de estadística aplicada.  

Cada fuente deberá incluir una breve explicación de la pregunta o necesidad que ayudó a resolver, por ejemplo:
- Cómo realizar pruebas estadísticas de hipótesis.  
- Cómo calcular y graficar distribuciones de datos.  
- Cómo implementar dashboards interactivos.  

 *Nota*: Las fuentes específicas se completarán al final del proyecto, cuando se hayan definido con claridad los materiales efectivamente consultados.
