# Hola &#x1F600;,

Soy **Hesus Garcia** – , tu revisor de confianza, también conocido como **"El Hesus que lleva la H de 'héroe' del código" 🦸‍♂️**. Sí, soy el único Hesus con H que te ayudará a llevar tu trabajo al siguiente nivel. Estoy preparado con observaciones y sugerencias que harán que tu proyecto destaque y esté a la altura de las mejores prácticas en desarrollo. ¡Prepárate para mejorar y brillar en el mundo del código! 🚀

Cada vez que encuentre un detalle importante en tu código, te lo señalaré para que puedas corregirlo y así te prepares para un ambiente de trabajo real, donde el líder de tu equipo actuaría de manera similar. Si en algún momento no logras solucionar el problema, te daré más detalles para ayudarte en nuestra próxima oportunidad de revisión.

Es importante que cuando encuentres un comentario, **no los muevas, no los modifiques, ni los borres**.

---

### Formato de Comentarios

Revisaré cuidadosamente cada implementación en tu notebook para asegurar que cumpla con los requisitos y te daré comentarios de acuerdo al siguiente formato:


<div class="alert alert-block alert-success">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Éxito</b> - ¡Excelente trabajo! Esta parte está bien implementada y contribuye significativamente al análisis de datos o al proyecto. Continúa aplicando estas buenas prácticas en futuras secciones.
    
</div>

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>Atención</b> ⚠️ - Este código está correcto, pero se puede optimizar. Considera implementar mejoras para que sea más eficiente y fácil de leer. Esto fortalecerá la calidad de tu proyecto.
    
</div>

<div class="alert alert-block alert-danger">
<b>Comentario del revisor</b> <a class="tocSkip"></a><br>
    
<b>A resolver</b> ❗ - Aquí hay un problema o error en el código que es necesario corregir para aprobar esta sección. Por favor, revisa y corrige este punto, ya que es fundamental para la validez del análisis y la precisión de los resultados.
    
</div>

---

Al final de cada revisión, recibirás un **Comentario General del Revisor** que incluirá:

- **Aspectos positivos:** Un resumen de los puntos fuertes de tu proyecto.
- **Áreas de mejora:** Sugerencias sobre aspectos donde puedes mejorar.
- **Temas adicionales para investigar:** Ideas de temas opcionales que puedes explorar por tu cuenta para desarrollar aún más tus habilidades.

Estos temas adicionales no son obligatorios en esta etapa, pero pueden serte útiles para profundizar en el futuro.

--- 

Esta estructura en viñetas facilita la lectura y comprensión de cada parte del comentario final.

También puedes responderme de la siguiente manera si tienes alguna duda o quieres aclarar algo específico:


<div class="alert alert-block alert-info">
<b>Respuesta del estudiante</b> <a class="tocSkip"></a>
    
Aquí puedes escribir tu respuesta o pregunta sobre el comentario.
    
</div>


# 1. Introducción

El servicio de telefonía virtual CallMeMaybe está en proceso de desarrollar una innovadora función diseñada para proporcionar a los supervisores información detallada sobre los operadores menos eficaces. Un operador se considera ineficaz si presenta una gran cantidad de llamadas entrantes perdidas (internas y externas) y un tiempo de espera prolongado para las llamadas entrantes. Además, en los casos en los que se espera que un operador realice llamadas salientes, un número reducido de estas también se considera un signo de ineficacia.

Para cumplir con este objetivo, se llevarán a cabo los siguientes pasos:

Realizar un análisis exploratorio de datos.

Identificar operadores ineficaces.

Probar las hipótesis estadísticas.

Este enfoque permitirá optimizar el rendimiento del servicio y asegurar que los supervisores dispongan de las herramientas necesarias para mejorar la eficacia operativa.

# 2. Objetivo 

Desarrollar una función para el servicio de telefonía virtual CallMeMaybe que permita a los supervisores identificar y evaluar la eficacia de los operadores. Esto se logrará a través de un análisis exploratorio de datos, la identificación de operadores ineficaces basados en métricas clave de rendimiento, y la prueba de hipótesis estadísticas. El objetivo final es optimizar el rendimiento operativo y mejorar la calidad del servicio al cliente mediante la implementación de herramientas que proporcionen información detallada y accionable sobre los operadores.

# 3.  Preprocesamiento de datos

In [1]:
# Importación de librerias
import pandas as pd

In [2]:
# Lectura del dataset
telecom_clients_us= pd.read_csv(
    "c:/Users/cary_/OneDrive/Escritorio/Data analyst/Sprint 14/telecom_clients_us.csv", sep=",")

telecom_dataset_us= pd.read_csv(
    "c:/Users/cary_/OneDrive/Escritorio/Data analyst/Sprint 14/telecom_dataset_us.csv", sep=",")


In [3]:
# Estudia tipo de datos del dataset
telecom_clients_us.info()
print("\n")
telecom_dataset_us.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 732 entries, 0 to 731
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   user_id      732 non-null    int64 
 1   tariff_plan  732 non-null    object
 2   date_start   732 non-null    object
dtypes: int64(1), object(2)
memory usage: 17.3+ KB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53902 entries, 0 to 53901
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   user_id              53902 non-null  int64  
 1   date                 53902 non-null  object 
 2   direction            53902 non-null  object 
 3   internal             53785 non-null  object 
 4   operator_id          45730 non-null  float64
 5   is_missed_call       53902 non-null  bool   
 6   calls_count          53902 non-null  int64  
 7   call_duration        53902 non-null  int64  
 8   total_call_duration  5390

Con la información observada en los datasets, se puede notar que algunas columnas no tienen los tipos de datos correctos. Lo primero será revisar los valores duplicados y ausentes para poder hacer las conversiones a los tipos de datos necesarios. A continuación, se usará una función que me ayudará a convertir algunos tipos de datos y reducir el tamaño de la memoria usada por ambos datasets.

In [4]:
# Revisar si existe algún valor duplicado
print('Duplicados totales para telecom_clients_us: ', telecom_clients_us.duplicated().sum())
print('Duplicados totales para telecom_dataset_us: ', telecom_dataset_us.duplicated().sum())
print("\n")

# Borrar valores duplicados
telecom_dataset_us = telecom_dataset_us.drop_duplicates().reset_index(drop=True)

Duplicados totales para telecom_clients_us:  0
Duplicados totales para telecom_dataset_us:  4900




En esta sección, los resultados muestran que existen valores ausentes en las columnas internal y operator_id. Dado que la columna internal solo contiene valores como True y False, utilizaré False para rellenar los valores ausentes. Para la columna operator_id, debido a que es información sensible y no tengo forma de consultar al ingeniero de datos sobre la información faltante, rellenaré los valores ausentes con 000000.

In [15]:
# Revisar valores ausentes en cada dataset
print("Valores nulos totales para telecom_clients_us: \n", telecom_clients_us.isna().sum())
print("\n")
print("Valores nulos totales para telecom_clients_us: \n", telecom_dataset_us.isna().sum())

# Se usa el metodo fillna para rellenar valores ausentes
telecom_dataset_us['internal'] = telecom_dataset_us['internal'].fillna(False)
telecom_dataset_us['operator_id'] = telecom_dataset_us['operator_id'].fillna(False)

Valores nulos totales para telecom_clients_us: 
 user_id        0
tariff_plan    0
date_start     0
dtype: int64


Valores nulos totales para telecom_clients_us: 
 user_id                0
date                   0
direction              0
internal               0
operator_id            0
is_missed_call         0
calls_count            0
call_duration          0
total_call_duration    0
dtype: int64


In [16]:
# Impresión para comprobar que los valores nulos ya no estan
print("\n")
print("\nValores nulos totales para telecom_clients_us: \n", telecom_dataset_us.isna().sum())




Valores nulos totales para telecom_clients_us: 
 user_id                0
date                   0
direction              0
internal               0
operator_id            0
is_missed_call         0
calls_count            0
call_duration          0
total_call_duration    0
dtype: int64


In [6]:
# Impresión de muestra de datos del dataset telecom_clients_us
print(telecom_clients_us.head())

print("\n")

# Impresión de muestra de datos del dataset telecom_dataset_us
print(telecom_dataset_us.head())

   user_id tariff_plan  date_start
0   166713           A  2019-08-15
1   166901           A  2019-08-23
2   168527           A  2019-10-29
3   167097           A  2019-09-01
4   168193           A  2019-10-16


   user_id                       date direction  internal operator_id  \
0   166377  2019-08-04 00:00:00+03:00        in     False       False   
1   166377  2019-08-05 00:00:00+03:00       out      True    880022.0   
2   166377  2019-08-05 00:00:00+03:00       out      True    880020.0   
3   166377  2019-08-05 00:00:00+03:00       out      True    880020.0   
4   166377  2019-08-05 00:00:00+03:00       out     False    880022.0   

   is_missed_call  calls_count  call_duration  total_call_duration  
0            True            2              0                    4  
1            True            3              0                    5  
2            True            1              0                    1  
3           False            1             10                   18  
4   

In [None]:
# Función para convertir los tipos datos de ambos datasets y bajar el tamaño de la memoria usada
def downcast_dtypes(df):
    float_cols = df.select_dtypes("float").columns
    int_cols = df.select_dtypes("integer").columns

    df[float_cols] = df[float_cols].apply(pd.to_numeric, downcast="float")
    df[int_cols] = df[int_cols].apply(pd.to_numeric, downcast="integer")

    return df

# Aplicación de la funcion a ambos datasets
print(downcast_dtypes(telecom_clients_us))
print("\n")
print(downcast_dtypes(telecom_dataset_us))

     user_id tariff_plan  date_start
0     166713           A  2019-08-15
1     166901           A  2019-08-23
2     168527           A  2019-10-29
3     167097           A  2019-09-01
4     168193           A  2019-10-16
..       ...         ...         ...
727   166554           B  2019-08-08
728   166911           B  2019-08-23
729   167012           B  2019-08-28
730   166867           B  2019-08-22
731   166565           B  2019-08-08

[732 rows x 3 columns]


       user_id                       date direction  internal operator_id  \
0       166377  2019-08-04 00:00:00+03:00        in     False       False   
1       166377  2019-08-05 00:00:00+03:00       out      True    880022.0   
2       166377  2019-08-05 00:00:00+03:00       out      True    880020.0   
3       166377  2019-08-05 00:00:00+03:00       out      True    880020.0   
4       166377  2019-08-05 00:00:00+03:00       out     False    880022.0   
...        ...                        ...       ...       ...       

Después de aplicar la función, se puede observar que aún existen algunas columnas que es necesario convertir. En cuanto a los nombres de las columnas, no será necesario hacer cambios ya que todas están en minúsculas, tienen nombres descriptivos y siguen el formato snake case.

In [8]:
telecom_clients_us.info()
print("\n")
telecom_dataset_us.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 732 entries, 0 to 731
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   user_id      732 non-null    int32 
 1   tariff_plan  732 non-null    object
 2   date_start   732 non-null    object
dtypes: int32(1), object(2)
memory usage: 14.4+ KB


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49002 entries, 0 to 49001
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   user_id              49002 non-null  int32 
 1   date                 49002 non-null  object
 2   direction            49002 non-null  object
 3   internal             49002 non-null  bool  
 4   operator_id          49002 non-null  object
 5   is_missed_call       49002 non-null  bool  
 6   calls_count          49002 non-null  int16 
 7   call_duration        49002 non-null  int32 
 8   total_call_duration  49002 non-null

In [None]:
# Conversión de tipos de datos

# Se convierte a tipo fecha la columna date_start del dataset telecom_clients_us
telecom_clients_us['date_start'] = pd.to_datetime(telecom_clients_us['date_start'])

# Se convierte a tipo category columna tariff_plan del dataset telecom_clients_us
telecom_clients_us['tariff_plan'] = telecom_clients_us['tariff_plan'].astype('category')

# Se convierte a tipo fecha la columna date_start del dataset telecom_clients_us
telecom_dataset_us['date'] = pd.to_datetime(telecom_dataset_us['date'])

# Se convierte a tipo bool columna internal del dataset telecom_dataset_us
telecom_dataset_us['internal'] = telecom_dataset_us['internal'].astype('bool')

# Se convierte a tipo int64 columna operator_id del dataset telecom_dataset_us
telecom_dataset_us['operator_id'] = telecom_dataset_us['operator_id'].astype('int64')


# 4. Proponer hipótesis

Hipótesis: Relación entre el Número de Llamadas Perdidas y la Eficacia del Operador

Hipótesis Nula: No existe una relación significativa entre la cantidad de llamadas entrantes perdidas y la eficacia del operador.

Hipótesis Alternativa: Existe una relación significativa entre la cantidad de llamadas entrantes perdidas y la eficacia del operador. Un mayor número de llamadas perdidas está asociado con una menor eficacia del operador.

# 5. Análisis exploratorio de datos

### Plan de acción para llegar al objetivo de identificar a los operadores ineficaces
1. Analizar la relación entre número de llamadas, duración de llamadas por operador, llamadas perdidas para cada operador.
2. Identificar la relacion entre el numero de llamadas y la duracion de la llamada.
3. Comparar el tiempo de duracion de las llamadas para cada operador.
4. Crear gráficos y visualizaciones para identificar patrones y tendencias en las llamadas de los operadores.
5. Determinar las métricas clave para definir la ineficacia de los operadores (por ejemplo, llamadas perdidas, tiempo de espera, número de llamadas salientes)
6. Identificar y clasificar a los operadores ineficaces según las métricas definidas.
7. Determinar las pruebas estadísticas apropiadas para cada hipótesis.
8. Interpretar los resultados de las pruebas estadísticas y sacar conclusiones basadas en los datos.
9. Documentar los hallazgos y análisis en un informe claro y detallado.
10. Crear presentaciones visuales que resuman los principales hallazgos y recomendaciones.

# 6. Conclusion 

<div class="alert alert-block alert-warning"> <b>Comentario del revisor</b> <a class="tocSkip"></a>
    
Hola, ¡gracias por compartir tu trabajo inicial! Quiero hacerte algunas preguntas y sugerencias para avanzar en este proyecto de manera más clara y estructurada, **ya que se esperaba un plan que incluyera descripciones más específicas** :

1. **Datos:**  
   ¿Ya tienes los datos con los que trabajarás? Si no es así, sería importante cargarlos en este notebook para poder visualizarlos. Si ya los tienes, asegúrate de incluir una tabla que muestre los datos ya cargados en esta sección para que podamos comprender mejor el contenido y las posibles necesidades de preprocesamiento. **Recuerda que el dataset debes pedirlo a tu tutor o community manager**

2. **Objetivo y Plan de Acción:**  
   Es fundamental ser explícito en el objetivo del proyecto. Por favor, define qué quieres lograr y cómo las hipótesis propuestas contribuirán a alcanzar este objetivo. Posteriormente, en el plan de acción, incluye las técnicas que aplicarás para atender esas hipótesis (por ejemplo, técnicas de limpieza, transformación o análisis de datos).

3. **Preprocesamiento:**  
   En esta sección, sería importante:
   - Mostrar si los datos contienen valores nulos o outliers.
   - Describir cómo planeas manejar estos problemas.
   - Realizar pasos básicos como renombrar columnas, convertir tipos de datos y eliminar duplicados.  
   Es ideal que detalles estas acciones dentro de un plan claro.

4. **Próximos pasos:**  
   Una vez que hayas identificado los problemas en los datos (nulos, outliers, etc.), describe cómo abordarás estas necesidades en un plan explícito. Esto nos ayudará a conectar el preprocesamiento con el objetivo general del proyecto.

---

### **Acciones Sugeridas:**
- Carga los datos en este notebook.
- Realiza un análisis inicial de los datos, incluyendo tipos, valores nulos, y cualquier otro problema de calidad.
- Basándote en el análisis, escribe un plan de proyecto donde expliques cómo planeas alcanzar el objetivo utilizando técnicas específicas.

¡Espero tus avances! Si necesitas ayuda con algún paso, no dudes en preguntar. 😊
</div>