# Proyecto Final: Telecomunicaciones: identificar operadores ineficaces

### Ejercicio

****El servicio de telefonía virtual CallMeMaybe está desarrollando una nueva función que brindará a los supervisores y las supervisores información sobre los operadores menos eficaces. Se considera que un operador es ineficaz si tiene una gran cantidad de llamadas entrantes perdidas (internas y externas) y un tiempo de espera prolongado para las llamadas entrantes. Además, si se supone que un operador debe realizar llamadas salientes, un número reducido de ellas también será un signo de ineficacia.

- Lleva a cabo el análisis exploratorio de datos
- Identificar operadores ineficaces
- Prueba las hipótesis estadísticas

### Descripción de los datos

Los datasets contienen información sobre el uso del servicio de telefonía virtual CallMeMaybe. Sus clientes son organizaciones que necesitan distribuir gran cantidad de llamadas entrantes entre varios operadores, o realizar llamadas salientes a través de sus operadores. Los operadores también pueden realizar llamadas internas para comunicarse entre ellos. Estas llamadas se realizan a través de la red de CallMeMaybe.

El dataset comprimido `telecom_dataset_us.csv` contiene las siguientes columnas:

- `user_id`: ID de la cuenta de cliente
- `date`: fecha en la que se recuperaron las estadísticas
- `direction`: "dirección" de llamada (`out` para saliente, `in` para entrante)
- `internal`: si la llamada fue interna (entre los operadores de un cliente o clienta)
- `operator_id`: identificador del operador
- `is_missed_call`: si fue una llamada perdida
- `calls_count`: número de llamadas
- `call_duration`: duración de la llamada (sin incluir el tiempo de espera)
- `total_call_duration`: duración de la llamada (incluido el tiempo de espera)

 

El conjunto de datos `telecom_clients_us.csv` tiene las siguientes columnas:

- `user_id`: ID de usuario/a
- `tariff_plan`: tarifa actual de la clientela
- `date_start`: fecha de registro de la clientela

Haz una lista de 5 a 10 fuentes (documentación, artículos, etc) que usaste mientras trabajabas en el proyecto. Brinda explicaciones breves sobre las preguntas que cada fuente te ayudó a responder. Prepara una presentación con tus conclusiones. Puedes usar cualquier herramienta que quieras para hacer la presentación, pero debes enviarla en PDF. Coloca el enlace en el cuerpo del proyecto principal.

### Actividades Propuestas:

#### 1. **Carga y Exploración de Datos (Python)**
   - **Descripción**: Esta actividad consiste en cargar ambos datasets (`telecom_dataset_us.csv` y `telecom_clients_us.csv`) usando pandas en Python. Se debe realizar una exploración preliminar de los datos para obtener una comprensión básica de las variables, tipos de datos y presencia de valores faltantes.
   - **Objetivo**: Conocer la estructura de los datos y realizar una limpieza inicial.
   - **Herramientas**: Pandas, Matplotlib/Seaborn.
   - **Pasos**:
     1. Cargar ambos datasets.
     2. Mostrar un resumen de las columnas, tipos de datos y verificar valores faltantes.
     3. Revisar las estadísticas descriptivas básicas (media, mediana, desviación estándar, etc.).

#### 2. **Análisis Exploratorio de Datos (Python)**
   - **Descripción**: Se explorarán los datos para descubrir patrones, outliers y distribuciones de variables clave, como la duración de las llamadas, número de llamadas perdidas, y tiempos de espera.
   - **Objetivo**: Identificar patrones en las llamadas entrantes, salientes, y las internas.
   - **Herramientas**: Pandas, Matplotlib/Seaborn.
   - **Pasos**:
     1. Analizar la distribución de la duración de llamadas (`call_duration` y `total_call_duration`).
     2. Visualizar la distribución de llamadas internas y externas (gráfico circular).
     3. Crear un filtro para la dirección de las llamadas (`in` o `out`).
     4. Graficar un histograma del número de llamadas por día.

#### 3. **Identificación de Operadores Ineficaces (Python)**
   - **Descripción**: Se analizarán métricas clave como la proporción de llamadas perdidas, la duración del tiempo de espera, y la baja cantidad de llamadas salientes para identificar operadores ineficaces.
   - **Objetivo**: Detectar a los operadores que cumplen con las condiciones de ineficacia (llamadas perdidas, largos tiempos de espera, bajo número de llamadas salientes).
   - **Herramientas**: Pandas, NumPy.
   - **Pasos**:
     1. Definir los umbrales para considerar un operador como ineficaz.
     2. Calcular la proporción de llamadas perdidas por operador.
     3. Analizar la cantidad de llamadas salientes realizadas por operador.
     4. Evaluar el tiempo de espera promedio de cada operador.

#### 4. **Pruebas de Hipótesis Estadísticas (Python)**
   - **Descripción**: Utilizar métodos estadísticos para comprobar si las diferencias en la cantidad de llamadas perdidas y la duración de espera entre operadores son significativas.
   - **Objetivo**: Validar si los operadores identificados son significativamente menos eficaces que el resto.
   - **Herramientas**: SciPy, Statsmodels.
   - **Pasos**:
     1. Realizar pruebas t para comparar la media de llamadas perdidas entre operadores ineficaces y eficaces.
     2. Realizar análisis ANOVA si hay más de dos grupos de operadores a comparar.
     3. Verificar la significancia estadística de los resultados.

### 5. **Segmentación de Operadores por Eficiencia (Python)**  
   Crear una segmentación de los operadores en grupos según su nivel de eficacia (eficaz, ineficaz moderado, muy ineficaz) usando clustering (K-means) para facilitar la visualización en Tableau.
   - **Objetivo**: Clasificar automáticamente a los operadores según múltiples criterios.
   - **Herramientas**: Scikit-learn para clustering, Tableau para visualización.
   - **Pasos**:
     1. Aplicar clustering en Python basado en las métricas clave.
     2. Visualizar los resultados de los clústeres en Tableau.

#### 6. **Visualización de Resultados en Tableau Public**
   - **Descripción**: Importar los datos preprocesados desde Python a Tableau para crear las visualizaciones que ayuden a analizar los operadores ineficaces y la distribución de llamadas.
   - **Objetivo**: Visualizar claramente los operadores ineficaces y otros insights del dataset.
   - **Herramientas**: Tableau Public.
   - **Pasos**:
     1. Crear histogramas para la duración de llamadas y número de llamadas por día.
     2. Crear gráficos circulares que muestren la participación de llamadas internas y externas.
     3. Agregar filtros por tipo de llamada (dirección y llamadas internas/externas).
     4. Crear gráficos que muestren los operadores ineficaces identificados.

## Referencias

### 1. **Análisis Exploratorio de Datos (Exploratory Data Analysis - EDA)**:
   - **Libro**: *Python for Data Analysis* por Wes McKinney.
     - Este libro cubre las técnicas esenciales de análisis de datos en Python utilizando bibliotecas como `pandas`, `numpy` y `matplotlib`. También es una excelente referencia para comprender cómo realizar análisis exploratorio de datos.
     - **Referencia**: McKinney, W. (2017). *Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython*. O'Reilly Media.
   
   - **Artículo**: *A Comprehensive Guide to Data Exploration in Python* en Towards Data Science.
     - Este artículo ofrece una guía completa sobre el análisis exploratorio de datos, incluyendo gráficos, histogramas y análisis estadísticos.
     - **Referencia**: [A Comprehensive Guide to Data Exploration in Python](https://towardsdatascience.com/a-comprehensive-guide-to-exploratory-data-analysis-26c10e80b2c0)

### 2. **Segmentación por Clustering usando K-means**:
   - **Libro**: *Data Science from Scratch: First Principles with Python* por Joel Grus.
     - Este libro es útil para comprender los fundamentos de los algoritmos de machine learning, incluyendo el clustering con K-means.
     - **Referencia**: Grus, J. (2019). *Data Science from Scratch: First Principles with Python*. O'Reilly Media.
   
   - **Artículo**: *Clustering Algorithms: A Comparative Study* en *International Journal of Advanced Research in Artificial Intelligence*.
     - Este estudio compara diferentes algoritmos de clustering, incluido K-means, y analiza sus ventajas y desventajas.
     - **Referencia**: Jain, A.K., Murty, M.N., & Flynn, P.J. (1999). *Data Clustering: A Review*. ACM Computing Surveys, 31(3), 264-323.

### 3. **Pruebas de Hipótesis en Python**:
   - **Libro**: *Statistics for Data Science* por James D. Miller.
     - Este libro proporciona una visión general de cómo aplicar pruebas estadísticas, como la prueba t y ANOVA, en Python.
     - **Referencia**: Miller, J.D. (2017). *Statistics for Data Science*. Packt Publishing.
   
   - **Artículo**: *Hypothesis Testing in Python* en Real Python.
     - Un artículo detallado sobre cómo llevar a cabo pruebas de hipótesis en Python utilizando `scipy.stats` para realizar pruebas t y ANOVA.
     - **Referencia**: [Hypothesis Testing in Python](https://realpython.com/python-hypothesis-testing/)

### 4. **Tableau para la Visualización de Datos**:
   - **Libro**: *Communicating Data with Tableau* por Ben Jones.
     - Este libro te guiará a través de las mejores prácticas para usar Tableau para comunicar datos y crear visualizaciones eficaces.
     - **Referencia**: Jones, B. (2014). *Communicating Data with Tableau*. O'Reilly Media.
   
   - **Artículo**: *An Introduction to Tableau for Data Science* en DataCamp.
     - Una introducción al uso de Tableau para la visualización de datos, incluyendo ejemplos sobre cómo integrar datos desde Python y crear gráficos interactivos.
     - **Referencia**: [Introduction to Tableau for Data Science](https://www.datacamp.com/community/tutorials/tableau-tutorial)

### 5. **Evaluación de Eficiencia de Operadores**:
   - **Artículo**: *Call Center Analytics: The Key Metrics That Matter* en *Harvard Business Review*.
     - Un artículo sobre las métricas clave para medir la eficiencia de operadores en un centro de llamadas, que puede ser útil para contextualizar tu análisis.
     - **Referencia**: [Call Center Analytics: The Key Metrics That Matter](https://hbr.org/2017/02/call-center-analytics-the-key-metrics-that-matter)

Estos recursos ofrecen una visión integral sobre los temas clave que hemos discutido: análisis exploratorio de datos, clustering, pruebas de hipótesis y la visualización en Tableau. Si necesitas más detalles o acceso a recursos específicos, estaré encantado de ayudarte a encontrar más fuentes.