## Introduccion

Al operador de telecomunicaciones Interconnect le gustaría poder pronosticar su tasa de cancelación de clientes. Si se descubre que un usuario o usuaria planea irse, se le ofrecerán códigos promocionales y opciones de planes especiales. El equipo de marketing de Interconnect ha recopilado algunos de los datos personales de sus clientes, incluyendo información sobre sus planes y contratos.

### Servicios de Interconnect

Interconnect proporciona principalmente dos tipos de servicios:

**1. Comunicación por teléfono fijo.** El teléfono se puede conectar a varias líneas de manera simultánea.  
**2. Internet.** La red se puede configurar a través de una línea telefónica (DSL, *línea de abonado digital*) o a través de un cable de fibra óptica.

Algunos otros servicios que ofrece la empresa incluyen:

- Seguridad en Internet: software antivirus (*ProtecciónDeDispositivo*) y un bloqueador de sitios web maliciosos (*SeguridadEnLínea*).
- Una línea de soporte técnico** (*SoporteTécnico*).
- Almacenamiento de archivos en la nube y backup de datos (*BackupOnline*).
- Streaming de TV (*StreamingTV*) y directorio de películas (*StreamingPelículas*)

La clientela puede elegir entre un pago mensual o firmar un contrato de 1 o 2 años. Puede utilizar varios métodos de pago y recibir una factura electrónica después de una transacción.

### Descripción de los datos

Los datos consisten en archivos obtenidos de diferentes fuentes:

- `contract.csv` — información del contrato;
- `personal.csv` — datos personales del cliente;
- `internet.csv` — información sobre los servicios de Internet;
- `phone.csv` — información sobre los servicios telefónicos.

En cada archivo, la columna `customerID` (ID de cliente) contiene un código único asignado a cada cliente. La información del contrato es válida a partir del 1 de febrero de 2020.

## Analisis exploratorio

### Librerias

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

### Carga de datos

In [2]:
path = 'final_provider/'

def load_data(path,file_name):
    """
    Con esta funcion realizaremos la carga de datos, se realizara desde forma local o desde la plataforma tripleten, argumentos:
    path: ruta del archivo local
    file_name: nombre del archivo a cargar con su extension en str   
    """
    try:
        df = pd.read_csv(path+file_name)
        return df
    except:
        df = pd.read_csv('/datasets/final_provider/'+file_name)
        return df

In [3]:
# Cargamos los datos
contract = load_data(path,'contract.csv')
internet = load_data(path,'internet.csv')
personal = load_data(path,'personal.csv')
phone = load_data(path,'phone.csv')

### Analisis exploratorio de datos

In [4]:
def explore(data):
    """
    Con esta funcion podemos hacer una visualización de datos de forma rapida, con la cual podemos observar:
    - Los datos contenidos en el dataset
    - El tipo de los datos
    - Valores ausentes
    - Valores duplicados
    - Descripcion de las variables numericas en caso de contenerlas
    """
    display(data.head(10))
    print('Tipo de datos')
    print(data.info())
    print()
    print('Valores ausentes')
    print(data.isna().sum())
    print()
    print('Valores duplicados')
    print(data.duplicated().sum())
    print()
    print('Valores de variables númericas')
    print(data.describe())

<div class="alert alert-block alert-warning">
<b>Comentario del revisor</b> <a class=“tocSkip”></a>
Muy bien desarrollo de una función para realizar la exploración, recuerda que podemos utilizar el carácter de escape \n para dejar espacio entre strings, de esta forma no es necesario llamar la función print() cada vez. 
</div>


#### Conjunto "contract" 

In [5]:
explore(contract)

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,7590-VHVEG,2020-01-01,No,Month-to-month,Yes,Electronic check,29.85,29.85
1,5575-GNVDE,2017-04-01,No,One year,No,Mailed check,56.95,1889.5
2,3668-QPYBK,2019-10-01,2019-12-01 00:00:00,Month-to-month,Yes,Mailed check,53.85,108.15
3,7795-CFOCW,2016-05-01,No,One year,No,Bank transfer (automatic),42.3,1840.75
4,9237-HQITU,2019-09-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,70.7,151.65
5,9305-CDSKC,2019-03-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,99.65,820.5
6,1452-KIOVK,2018-04-01,No,Month-to-month,Yes,Credit card (automatic),89.1,1949.4
7,6713-OKOMC,2019-04-01,No,Month-to-month,No,Mailed check,29.75,301.9
8,7892-POOKP,2017-07-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,104.8,3046.05
9,6388-TABGU,2014-12-01,No,One year,No,Bank transfer (automatic),56.15,3487.95


Tipo de datos
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB
None

Valores ausentes
customerID          0
BeginDate           0
EndDate             0
Type                0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
dtype: int64

Valores duplicados
0

Valores de variables númericas
       MonthlyCharges
count     7043.000000
mean        64.761692
std         30.090047
mi

En este conjunto podemos ver: 
* **"customerID"** - el ID del cliente 
* **"BeginDate"** - su inicio de los servicios de la compañia 
* **"EndDate"** - la fecha de terminacion del contrato si es que tiene 
* **"Type"** - el tipo de contrato que tiene 
* **"PaperlessBilling"** - si su facturacion es impresa o no
* **"PaymentMethod"** - metodo de pago 
* **"MonthlyCharges"** - cargo mensual del pago 
* **"TotalCharges"** - cargo total  que tendra que pagar 

Podemos observar de entrada tenemos 7043 filas de datos, y los tipos de datos no corresponden a su tipo como las fechas y algunas variables numericas, los cuales deben ser corregidos.

En cuanto a las variables numericas podemos observar a simple que vista que no tenemos valores anormales, por lo que podemos considerarlos "correctos".

En cuanto a las variables categoricas veremos mas adelante si nos pueden ser de utilidad.

No contamos con valores ausentes o valores duplicados

#### Conjunto "internet"

In [6]:
explore(internet)

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,7590-VHVEG,DSL,No,Yes,No,No,No,No
1,5575-GNVDE,DSL,Yes,No,Yes,No,No,No
2,3668-QPYBK,DSL,Yes,Yes,No,No,No,No
3,7795-CFOCW,DSL,Yes,No,Yes,Yes,No,No
4,9237-HQITU,Fiber optic,No,No,No,No,No,No
5,9305-CDSKC,Fiber optic,No,No,Yes,No,Yes,Yes
6,1452-KIOVK,Fiber optic,No,Yes,No,No,Yes,No
7,6713-OKOMC,DSL,Yes,No,No,No,No,No
8,7892-POOKP,Fiber optic,No,No,Yes,Yes,Yes,Yes
9,6388-TABGU,DSL,Yes,Yes,No,No,No,No


Tipo de datos
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5517 entries, 0 to 5516
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        5517 non-null   object
 1   InternetService   5517 non-null   object
 2   OnlineSecurity    5517 non-null   object
 3   OnlineBackup      5517 non-null   object
 4   DeviceProtection  5517 non-null   object
 5   TechSupport       5517 non-null   object
 6   StreamingTV       5517 non-null   object
 7   StreamingMovies   5517 non-null   object
dtypes: object(8)
memory usage: 344.9+ KB
None

Valores ausentes
customerID          0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
dtype: int64

Valores duplicados
0

Valores de variables númericas
        customerID InternetService OnlineSecurity OnlineBackup  \
count         5517            5517           5

En este conjunto podemos ver:
* **"customerID"** - el ID del cliente
* **"InternetService"**	- Tipo de internet
* **"OnlineSecurity"** - Si tiene seguridad en linea
* **"OnlineBackup** - Si tiene respaldo en linea
* **"DeviceProtection** - Si tiene proteccion de dispositivo
* **"TechSupport** - Si tiene soporte de tecnologia
* **"StreamingTV** - Si tiene TV por internet
* **"StreamingMovies** - Si tiene peliculas por internet

Podemos ver que solo contiene 5517 filas en comparacion con los contactos que tiene 7043, por lo que podemos ver que hay clientes de los cuales no tenemos informacion.

Los tipos de datos son correctos al ser tipo object por contener solo palabras.

Contamos solo con variables categoricas, la mayoria con solo Yes/No como respuesta.

No contamos con valores ausentes o valores duplicados

#### Conjunto "personal"

In [7]:
explore(personal)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents
0,7590-VHVEG,Female,0,Yes,No
1,5575-GNVDE,Male,0,No,No
2,3668-QPYBK,Male,0,No,No
3,7795-CFOCW,Male,0,No,No
4,9237-HQITU,Female,0,No,No
5,9305-CDSKC,Female,0,No,No
6,1452-KIOVK,Male,0,No,Yes
7,6713-OKOMC,Female,0,No,No
8,7892-POOKP,Female,0,Yes,No
9,6388-TABGU,Male,0,No,Yes


Tipo de datos
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 275.2+ KB
None

Valores ausentes
customerID       0
gender           0
SeniorCitizen    0
Partner          0
Dependents       0
dtype: int64

Valores duplicados
0

Valores de variables númericas
       SeniorCitizen
count    7043.000000
mean        0.162147
std         0.368612
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max         1.000000


En este conjunto podemos ver:

* **"customerID"** - el ID del cliente
* **"gender"**	- Genero del cliente
* **"SeniorCitizen"** - Si es jubilado
* **"Partner** - Si tiene pareja
* **"Dependents** - Si tiene dependientes

Podemos ver que contiene 7043 filas,mismas filas que el conjunto contactos, por lo que podemos pensar que todos los datos estan completos.

Contamos solo con variables categoricas.

Los tipos de datos son correctos.

No contamos con valores ausentes o valores duplicados

#### Conjunto "phone" 

In [8]:
explore(phone)

Unnamed: 0,customerID,MultipleLines
0,5575-GNVDE,No
1,3668-QPYBK,No
2,9237-HQITU,No
3,9305-CDSKC,Yes
4,1452-KIOVK,Yes
5,7892-POOKP,Yes
6,6388-TABGU,No
7,9763-GRSKD,No
8,7469-LKBCI,No
9,8091-TTVAX,Yes


Tipo de datos
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6361 entries, 0 to 6360
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     6361 non-null   object
 1   MultipleLines  6361 non-null   object
dtypes: object(2)
memory usage: 99.5+ KB
None

Valores ausentes
customerID       0
MultipleLines    0
dtype: int64

Valores duplicados
0

Valores de variables númericas
        customerID MultipleLines
count         6361          6361
unique        6361             2
top     5575-GNVDE            No
freq             1          3390


En este conjunto podemos ver:

* **"customerID"** - el ID del cliente
* **"MultipleLines"**	- Si tiene multiples lineas

Podemos ver que contiene 6361 filas, las cuales son menores a las 7043 del conjunto de contactos, por lo que podemos decir que no tenemos los datos completos.

Contamos solo con variables categoricas.

Los tipos de datos son correctos.

No contamos con valores ausentes o valores duplicados

## Plan de trabajo / Conclusiones

Nuestro principal objetivo de acuerdo a las exigencias del cliente es, pronosticar la tasa de cancelacion de los clientes, es decir, predecir si un cliente se va o se queda a partir de una fecha, nuestro target/objetivo es la variable o columna **"EndDate"**, el cual puede ser algo confuso, ya que interpretandolo podemos decir que **"No"** significa que continua con el plan y una **"fecha"** quiere decir que termino con el plan.

**¿Cómo podemos lograr esto?**

En primera instacia debemos preparar / corregir nuestros datos de nuestros conjuntos:
- Cambiaremos los titulos de los diferentes conjuntos de datos a minisculas para tener una mejor manipulacion de columnas
- Cambiar los tipos de datos a los correctos: object a datetime, object a datetime
- Hacer un conjunto general uniendo los 4 conjuntos de datos que tenemos para obtener la mayor cantidad de caracteristicas por cliente.

**Preparacion de modelo:**
- Extraer el porcentaje de datos de clientes que abandonan la compañia.
- Hacer un upsample o downsample respecto al resultado anterior.
- Hacer una codificacion OneHotEncoding para las variables categoricas.
- Hacer un escalado de datos para variables numericas.

**Entrenamiento de modelo:**
- Preparar distintos modelos de prediccion con resultado de clasificacion, utilizando distintas configuraciones en cada uno para obtener el mejor resultado posible.
- Como métrica principal de resultado usaremos AUC-ROC para medir nuestro modelo, aunado a la métrica de accuracy/precisión como métrica secundaria.


**Explicación de resultados:**
- Explicaremos el porque del manejo y manipulacion de los datos para entrenar nuestro modelo
- Explicaremos cual es nuestro mejor modelo respecto a nuestra metrica de medida y cual es más rapido.
- Mostraremos la tasa de abandono de clientes.