# Descripción del Sprint Final

El sprint final se centra en un proyecto de análisis de datos que abarca varias etapas clave, desde la limpieza de datos hasta la presentación de los hallazgos. Además, incluye tareas obligatorias de pruebas A/B y SQL, y una tarea opcional para construir un dashboard.

El proyecto asignará un caso de negocio de una de las siguientes áreas:

 * Telecomunicaciones

 * Venta minorista

 * Juegos

 * Aplicaciones móviles

 * Comercio electrónico

No se  proporcionará una guía paso a paso; en cambio, se planificarán las etapas del proyecto por cuenta propia.



# Pasos Clave y Tareas Obligatorias

## 1. Descomposición del Proyecto

 Un plan bien estructurado te ahorrará tiempo y te ayudará a obtener la aprobación del líder del equipo.

## 2. Tareas A/B y SQL

Tareas independientes pero complementarias al proyecto.

# Descomposición del proyecto

## 1. Carga y preprocesamiento de datos

El primer paso es preparar los datos para el análisis. Unos datos limpios son la base de cualquier conclusión fiable.

* Cargar los datos: Cargar los dos archivos CSV (telecom_dataset_us.csv y telecom_clients_us.csv) en un entorno de trabajo como un DataFrame de Pandas.

* Inspección inicial: Revisar la información general de ambos DataFrames: número de filas y columnas, tipos de datos, y si hay valores nulos.

* Limpieza de datos:

    * Tratamiento de nulos: Identificar y manejar cualquier valor faltante. Podrías optar por imputar o eliminar las filas/columnas según la cantidad y la naturaleza de los datos faltantes.

    * Conversión de tipos de datos: Asegurarse de que las columnas de fecha (date, date_start) estén en el formato datetime y que las columnas numéricas (calls_count, call_duration, etc.) sean del tipo apropiado.

* Unión de DataFrames: Combinar los dos DataFrames en uno solo utilizando la columna user_id para tener toda la información necesaria para el análisis en un solo lugar. Esto es crucial para poder relacionar la actividad de los operadores con sus respectivos clientes y planes tarifarios.

## 2. Análisis Exploratorio de Datos (AED)

Esta fase permitirá entender la estructura de los datos y las características de las llamadas y operadores. El AED ayudará a formular hipótesis y a identificar patrones iniciales.

* Estadísticas descriptivas: Calcular estadísticas básicas (media, mediana, desviación estándar) para las columnas numéricas como calls_count, call_duration, y total_call_duration.

* Distribución de las llamadas:

    * Graficar histogramas para visualizar la distribución de la duración de las llamadas (call_duration, total_call_duration). Esto puede revelar la existencia de valores atípicos o si las llamadas tienden a durar un tiempo específico.

    * Crear gráficos de barras o circulares para la distribución de las direcciones de las llamadas (direction) y si son internas o externas (internal). Esto dará una idea de la carga de trabajo de los operadores.

* Análisis por operador y por cliente:

    * Agrupar los datos por operator_id y user_id para analizar métricas clave como el promedio de llamadas perdidas, la duración promedio del tiempo de espera y el número de llamadas salientes.

* Identificación de operadores ineficaces (criterios):

     * Basándose en la descripción del problema, establecer los umbrales para identificar a un operador como "ineficaz". Por ejemplo:

        * Un alto porcentaje de llamadas entrantes perdidas.

        * Un tiempo de espera prolongado (que se puede derivar de total_call_duration - call_duration).

        * Un bajo número de llamadas salientes (para los que se espera que las hagan).



## 3. Prueba de hipótesis

En esta etapa, se utilizará estadística para validar los hallazgos. Se pueden formular varias hipótesis para probar si las diferencias observadas son estadísticamente significativas.

* Hipótesis 1: Duración de la llamada y ineficacia.

    * Hipótesis nula (H0): No hay diferencia significativa en la duración del tiempo de espera entre los operadores "eficaces" e "ineficaces".

    * Hipótesis alternativa (H1): Los operadores "ineficaces" tienen un tiempo de espera significativamente más largo que los "eficaces".

    * Prueba: Usar una prueba t de Student o una prueba de Mann-Whitney U si los datos no se distribuyen normalmente.

* Hipótesis 2: Número de llamadas perdidas y tipo de plan tarifario.

    * Hipótesis nula (H0): El porcentaje de llamadas perdidas no está relacionado con el plan tarifario del cliente.

    * Hipótesis alternativa (H1): Los clientes con ciertos planes tarifarios tienen un porcentaje de llamadas perdidas significativamente mayor.

    * Prueba: Usar una prueba de chi-cuadrado para analizar la relación entre estas variables categóricas.

## 4. Identificación y Clasificación de Operadores Ineficaces

Con los criterios definidos y las hipótesis probadas, el siguiente paso es identificar la lista de operadores que cumplen con los criterios de ineficacia.

* Creación de un DataFrame de ineficacia: Crear un nuevo DataFrame que contenga solo los operadores identificados como ineficaces, junto con sus métricas clave.

* Análisis de los "ineficaces": Analizar las características comunes de este grupo de operadores. Por ejemplo, ¿trabajan para el mismo cliente?, ¿tienen algún patrón en sus llamadas?

## 5. Fuentes y Herramientas Adicionales 

Para un proyecto completo, es fundamental documentar las fuentes que te ayudaron a resolver problemas o a entender mejor los conceptos.

Fuentes de consulta (ejemplo):

1. Documentación de Pandas: Para operaciones de groupby(), merge(), fillna(). Ayuda a realizar el preprocesamiento de datos de forma eficiente.

2. Documentación de Matplotlib/Seaborn: Para la creación de visualizaciones (histogramas, gráficos de pastel). Esencial para el AED.

3. Tutoriales de SciPy/Statsmodels: Para la implementación de pruebas estadísticas como la prueba t de Student o la prueba de chi-cuadrado.

4. Artículos sobre métricas de centros de llamadas: Para entender qué KPIs son relevantes para evaluar la eficacia de los operadores, como el tiempo promedio de atención (AHT) o el tiempo de espera.

5. Recursos sobre dashboards en Tableau/Power BI: Para la creación del dashboard opcional.

## 6. Presentación de Conclusiones

El objetivo final es comunicar los hallazgos de forma clara y concisa a los interesados.

* Crear la presentación: Utilizar una herramienta como PowerPoint, Google Slides o incluso una librería de Python para crear la presentación.

* Contenido: La presentación debe incluir:

    * Introducción: El problema del negocio.

    * Metodología: Los pasos seguidos (preprocesamiento, AED, pruebas de hipótesis).

     * Hallazgos clave: Las conclusiones más importantes del análisis, como el número y las características de los operadores ineficaces.

    * Recomendaciones: Sugerencias basadas en los hallazgos para mejorar la eficiencia.

* Entrega: Exportar la presentación como un archivo PDF y subirla según las instrucciones del proyecto.

# Objetivo del proyecto

Demostrar la capacidad de integrar la mayoría de las habilidades adquiridas en el curso.