# Importar Librerías 


In [1]:
# Manipulación de datos 
import pandas as pd 
import numpy as np 
import math 
import datetime as dt 
# Visualización de datos 
import seaborn as sns 
import matplotlib.pyplot as plt 

# Importar Datasets 
Los datasets contienen información sobre el uso del servicio de telefonía virtual CallMeMaybe. Sus clientes son organizaciones que necesitan distribuir gran cantidad de llamadas entrantes entre varios operadores, o realizar llamadas salientes a través de sus operadores. Los operadores también pueden realizar llamadas internas para comunicarse entre ellos. Estas llamadas se realizan a través de la red de CallMeMaybe.

## Telecom Dataset 
- `user_id`: ID de la cuenta de cliente
- `date`: fecha en la que se recuperaron las estadísticas
- `direction`: "dirección" de llamada (`out` para saliente, `in` para entrante)
- `internal`: si la llamada fue interna (entre los operadores de un cliente o clienta)
- `operator_id`: identificador del operador
- `is_missed_call`: si fue una llamada perdida
- `calls_count`: número de llamadas
- `call_duration`: duración de la llamada (sin incluir el tiempo de espera)
- `total_call_duration`: duración de la llamada (incluido el tiempo de espera)

In [2]:
data = pd.read_csv('telecom_dataset_us.csv')
data.head(10)

Unnamed: 0,user_id,date,direction,internal,operator_id,is_missed_call,calls_count,call_duration,total_call_duration
0,166377,2019-08-04 00:00:00+03:00,in,False,,True,2,0,4
1,166377,2019-08-05 00:00:00+03:00,out,True,880022.0,True,3,0,5
2,166377,2019-08-05 00:00:00+03:00,out,True,880020.0,True,1,0,1
3,166377,2019-08-05 00:00:00+03:00,out,True,880020.0,False,1,10,18
4,166377,2019-08-05 00:00:00+03:00,out,False,880022.0,True,3,0,25
5,166377,2019-08-05 00:00:00+03:00,out,False,880020.0,False,2,3,29
6,166377,2019-08-05 00:00:00+03:00,out,False,880020.0,True,8,0,50
7,166377,2019-08-05 00:00:00+03:00,in,False,,True,6,0,35
8,166377,2019-08-05 00:00:00+03:00,out,False,880020.0,True,8,0,50
9,166377,2019-08-06 00:00:00+03:00,in,False,,True,4,0,62


## Telecom Clients 
- `user_id`: ID de usuario/a
- `tariff_plan`: tarifa actual de la clientela
- `date_start`: fecha de registro de la clientela

In [3]:
clients = pd.read_csv('telecom_clients_us.csv')
clients.head(10)

Unnamed: 0,user_id,tariff_plan,date_start
0,166713,A,2019-08-15
1,166901,A,2019-08-23
2,168527,A,2019-10-29
3,167097,A,2019-09-01
4,168193,A,2019-10-16
5,167764,A,2019-09-30
6,167050,A,2019-08-29
7,168252,A,2019-10-17
8,168495,A,2019-10-28
9,167879,A,2019-10-03


# Preprocesamiento de Datos 

## Valores Ausentes 

### Data_Df

In [4]:
# Usar 'isna()' para ver la cantidad de valores ausentes en las distintas columnas del df
data.isna().sum()

user_id                   0
date                      0
direction                 0
internal                117
operator_id            8172
is_missed_call            0
calls_count               0
call_duration             0
total_call_duration       0
dtype: int64

Vemos que la columna con el identificador de los operarios tiene varios valores ausentes, por lo que al ser esta la columna con los valores ausentes lo mejor es eliminar todos estos valores ausentes ya que estos no nos ayudan con nuestro objetivo que es identificar a los operarios ineficientes y en este caso hace falta una de las cosas más importantes que es el identificador del usuario

In [5]:
# Eliminar valores duplicados 
data.dropna(subset='operator_id', inplace=True)

## Clients_Df

In [6]:
clients.isna().sum()

user_id        0
tariff_plan    0
date_start     0
dtype: int64

El dataset con la información de los clientes no tiene valores ausentes

## Tipos de datos correctos

### Data_DF

In [7]:
# Ver información general del dataset 
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 45730 entries, 1 to 53900
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   user_id              45730 non-null  int64  
 1   date                 45730 non-null  object 
 2   direction            45730 non-null  object 
 3   internal             45670 non-null  object 
 4   operator_id          45730 non-null  float64
 5   is_missed_call       45730 non-null  bool   
 6   calls_count          45730 non-null  int64  
 7   call_duration        45730 non-null  int64  
 8   total_call_duration  45730 non-null  int64  
dtypes: bool(1), float64(1), int64(4), object(3)
memory usage: 3.2+ MB


In [9]:
data[['user_id','operator_id']] = data[['user_id','operator_id']].astype(str)

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 45730 entries, 1 to 53900
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   user_id              45730 non-null  object
 1   date                 45730 non-null  object
 2   direction            45730 non-null  object
 3   internal             45670 non-null  object
 4   operator_id          45730 non-null  object
 5   is_missed_call       45730 non-null  bool  
 6   calls_count          45730 non-null  int64 
 7   call_duration        45730 non-null  int64 
 8   total_call_duration  45730 non-null  int64 
dtypes: bool(1), int64(3), object(5)
memory usage: 3.2+ MB
