# **Proyecto Final 14: Descomposición \- Identificación de Operadores Ineficaces**

**Autor: Octavio Landa Verde**
**Fecha: 20 de octubre de 2025**  
**Proyecto: Análisis de datos para el servicio de telefonía virtual CallMeMaybe.**

## **1\. Objetivo del Proyecto**

El objetivo principal de este proyecto es analizar los datos de uso del servicio CallMeMaybe para desarrollar una metodología que identifique a los operadores considerados "ineficaces". Esta identificación se basará en tres criterios clave definidos por el negocio:

1. Un alto número de **llamadas entrantes perdidas**.  
2. Un **tiempo de espera prolongado** para las llamadas entrantes.  
3. Un **número reducido de llamadas salientes** (si aplica).

El análisis culminará en una lista de operadores que cumplen con estos criterios, pruebas de hipótesis para validar observaciones clave y una presentación de resultados para los stakeholders.

## **2\. Estructura de Desglose del Trabajo (EDT)**

Se utilizará una EDT basada en las fases del ciclo de vida del análisis de datos para asegurar un enfoque metódico y completo.

* **1.0 Planificación y Comprensión del Problema**  
* **2.0 Adquisición y Preparación de Datos**  
* **3.0 Análisis Exploratorio de Datos (EDA)**  
* **4.0 Identificación de Operadores y Definición de Métricas**  
* **5.0 Pruebas de Hipótesis Estadísticas**  
* **6.0 Síntesis de Resultados y Entrega Final**

## **3\. Plan de Tareas Detallado y Cronograma**

A continuación, se detalla cada fase en tareas específicas y accionables, con una estimación de tiempo.

### **Fase 1.0: Planificación y Comprensión (Estimación: 1 hora)**

* \[ \] **1.1 Definir Criterios:** Formalizar la definición de "operador ineficaz" a partir de la descripción del proyecto.  
* \[ \] **1.2 Formular Preguntas Clave:**  
  * ¿Cómo se distribuyen las métricas de rendimiento (llamadas perdidas, tiempo de espera, llamadas salientes) entre los operadores?  
  * ¿Existen patrones o anomalías en los datos a nivel general?  
  * ¿Qué umbrales estadísticos podemos usar para definir "alto" y "bajo" de manera objetiva?  
* \[ \] **1.3 Formular Hipótesis Iniciales:**  
  * **Hipótesis 1:** El tiempo de espera promedio para llamadas *internas* es diferente al de las llamadas *externas*.  
  * **Hipótesis 2:** Existe una asociación entre el *plan de tarifa* del cliente y la proporción de llamadas perdidas.

### **Fase 2.0: Adquisición y Preparación de Datos (Estimación: 2-3 horas)**

* \[ \] **2.1 Carga de Datos:** Cargar telecom\_dataset\_us.csv y telecom\_clients\_us.csv en un DataFrame de Pandas.  
* \[ \] **2.2 Inspección Inicial:**  
  * \[ \] Revisar la estructura, tipos de datos y recuento de nulos con .info().  
  * \[ \] Obtener estadísticas descriptivas con .describe().  
  * \[ \] Visualizar las primeras filas con .head().  
* \[ \] **2.3 Limpieza de Datos:**  
  * \[ \] **Tipos de Datos:** Convertir date y date\_start a formato datetime. Asegurar que las columnas booleanas (internal, is\_missed\_call) tengan el tipo correcto.  
  * \[ \] **Valores Nulos:** Investigar y decidir una estrategia para los NaNs en internal y operator\_id. (Propuesta: Rellenar internal con False; excluir registros con operator\_id nulo para el análisis de operadores).  
  * \[ \] **Duplicados:** Identificar y eliminar registros completamente duplicados.  
* \[ \] **2.4 Ingeniería de Características:**  
  * \[ \] Crear la columna wait\_time (total\_call\_duration \- call\_duration). Validar que no haya valores negativos.

### **Fase 3.0: Análisis Exploratorio de Datos (EDA) (Estimación: 3-4 horas)**

* \[ \] **3.1 EDA General:**  
  * \[ \] Trazar histogramas para call\_duration y wait\_time para entender sus distribuciones.  
  * \[ \] Trazar un gráfico circular para mostrar la proporción de llamadas internal vs. external.  
  * \[ \] Trazar un gráfico de líneas para visualizar el número de llamadas por día y detectar tendencias o estacionalidad.  
* \[ \] **3.2 Filtrado y Segmentación:**  
  * \[ \] Analizar las métricas anteriores filtrando por dirección de llamada (in vs. out).

### **Fase 4.0: Identificación de Operadores y Definición de Métricas (Estimación: 2-3 horas)**

* \[ \] **4.1 Agregación de Datos:** Crear un DataFrame resumen agrupando por operator\_id.  
* \[ \] **4.2 Cálculo de Métricas por Operador:**  
  * \[ \] total\_incoming\_calls  
  * \[ \] total\_incoming\_missed  
  * \[ \] pct\_missed\_incoming (proporción de perdidas)  
  * \[ \] avg\_wait\_time (tiempo de espera promedio)  
  * \[ \] total\_outgoing\_calls  
* \[ \] **4.3 Definición de Umbrales:**  
  * \[ \] Calcular percentiles (ej., 75 o 90\) para las métricas de llamadas perdidas y tiempo de espera para definir "alto".  
  * \[ \] Calcular un percentil (ej., 25 o 50\) para las llamadas salientes para definir "reducido".  
* \[ \] **4.4 Filtrado Final:** Aplicar los umbrales definidos para generar la lista de operadores ineficaces.

### **Fase 5.0: Pruebas de Hipótesis Estadísticas (Estimación: 2 horas)**

* \[ \] **5.1 Ejecutar Prueba para Hipótesis 1 (Tiempo de Espera):**  
  * \[ \] Segmentar los datos de tiempo de espera para llamadas internas y externas.  
  * \[ \] Seleccionar y aplicar el test adecuado (ej. Test U de Mann-Whitney, ya que los datos de tiempo no suelen ser normales).  
  * \[ \] Interpretar el valor p y concluir si se rechaza o no la hipótesis nula.  
* \[ \] **5.2 Ejecutar Prueba para Hipótesis 2 (Plan de Tarifa):**  
  * \[ \] Fusionar los datasets de llamadas y clientes.  
  * \[ \] Crear una tabla de contingencia entre tariff\_plan y is\_missed\_call.  
  * \[ \] Aplicar un Test Chi-Cuadrado de independencia.  
  * \[ \] Interpretar el valor p y concluir sobre la asociación.

### **Fase 6.0: Síntesis de Resultados y Entrega Final (Estimación: 2-3 horas)**

* \[ \] **6.1 Documentación:** Comentar el código y añadir explicaciones en Markdown a lo largo del notebook para asegurar la reproducibilidad y claridad.  
* \[ \] **6.2 Preparación de Entregables:**  
  * \[ \] Limpiar y finalizar el Jupyter Notebook.  
  * \[ \] Recopilar la lista de 5-10 fuentes utilizadas.  
  * \[ \] Crear una presentación (ej. en Google Slides o Powerpoint) que resuma los hallazgos clave y las recomendaciones de negocio.  
  * \[ \] Exportar la presentación a formato PDF.

## **4\. Herramientas y Librerías**

* **Lenguaje:** Python 3  
* **Entorno:** Jupyter Notebook  
* **Librerías Principales:**  
  * Pandas: Para manipulación y análisis de datos.  
  * NumPy: Para operaciones numéricas.  
  * Matplotlib & Seaborn: Para visualización de datos.  
  * SciPy: Para las pruebas estadísticas.

## **5\. Entregables**

1. **Jupyter Notebook Completo:** Un archivo .ipynb que contenga todo el proceso de análisis, desde la carga de datos hasta las conclusiones finales, debidamente comentado.  
2. **Lista de Operadores Ineficaces:** Un archivo .csv con los operator\_id identificados y sus métricas de rendimiento.  
3. **Presentación de Resultados:** Un archivo .pdf con un resumen ejecutivo de los hallazgos y recomendaciones.  
4. **Lista de Fuentes:** Una sección en el notebook o un documento separado con las fuentes consultadas.