### Caso de clientes "Telco Customer Churn "
#### Autor: Rubén Pizarro Gurrola
#### Julio 2019
#### Objetivo: Realizar un analisis descriptivo de la fuga de clientes para una empreas de telecomunicaciones. 
#### Caso: Telco Customer Churn 



### Cargar los Datos

In [58]:
#### Cargar los datos
import numpy as np
import pandas as pd

clientes = pd.read_csv ("WA_Fn-UseC_-Telco-Customer-Churn.csv") # Nombre en estado original





### Analizando los datos
#### Número de observaciones y variables del conjunto de datos

In [59]:
clientes.shape   

(7043, 21)

#### Mostrar los primeros registros

In [60]:
clientes.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


#### Conociendo la estructrua de clientes de las variables descriptivas numericas

In [61]:
clientes.describe(include=[np.number]) # Arroja los estadísticos de las variables cuantitativas o numéricas de clientes

Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges
count,7043.0,7043.0,7043.0
mean,0.162147,32.371149,64.761692
std,0.368612,24.559481,30.090047
min,0.0,0.0,18.25
25%,0.0,9.0,35.5
50%,0.0,29.0,70.35
75%,0.0,55.0,89.85
max,1.0,72.0,118.75


#### Análisis de variables cuantitativas
La anterior información las variable de interés son `tenure` y `MonthlyCharges`: `tenure` es el número de meses que 
un cliente ha estado en la empresa como cliente y `MonthlyCharges` es el cargo mensual de los clientes.
Como se observa la media es de `32.37` meses con respecto al número de meses (tenure) y 
la media de cargo es de `64.761692` (Suponemos que son Euros)
aparece la variable SeniorCitizen como un valor cuantitativo, siendo esta con valores de `0` y `1` para identificar si es jubilado o no. 
Esta variable, no represnta interés numerico para este simple análisis de las variables cuantitativas
La anterior taba, también refleja los máximos y mínimos de estas variables cuantitativas, de igual forma se
muestran los cuartiles de las variables de interés cuantitativo de `tenure` y `MonthlyCharges` principalmente.


#### Conociendo la estructrua de clientes de las variables descriptivas tipo objetos. Incluye las de cadena o character

In [62]:
clientes.describe(include=[np.object]) # Arroja los estadísticos de las variables objeto de clientes

Unnamed: 0,customerID,gender,Partner,Dependents,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,TotalCharges,Churn
count,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043,7043.0,7043
unique,7043,2,2,2,2,3,3,3,3,3,3,3,3,3,2,4,6531.0,2
top,2808-CHTDM,Male,No,No,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,,No
freq,1,3555,3641,4933,6361,3390,3096,3498,3088,3095,3473,2810,2785,3875,4171,2365,11.0,5174


De la anterior información analizando los datos y como la variable de mayor interés es `Churn` que ignifica que si los 
cientes se han retirado de la empesa con valor de `Yes` o si continúan con el servicio con valor de `No`.
La frecuencia de los que no se han retirados con valor de `No` son 5174 representando un  `73%`.
Ahora bien, la variable de interés de este análisis es precisamente  `Churn`, 
entonces nuestro objeto de estudio es anañizar porqué el  `27%` son clientes que se han retirado del servicio de la empresa.
Este `27%` son los datos que nos interesa y objeto de estudio


#### Determinando los clientes que se han fugado

In [63]:
clientesFugados = clientes[clientes.Churn == 'Yes']
clientesFugados.head() # Los primeros clientes fugados

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes
5,9305-CDSKC,Female,0,No,No,8,Yes,Yes,Fiber optic,No,...,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,99.65,820.5,Yes
8,7892-POOKP,Female,0,Yes,No,28,Yes,Yes,Fiber optic,No,...,Yes,Yes,Yes,Yes,Month-to-month,Yes,Electronic check,104.8,3046.05,Yes
13,0280-XJGEX,Male,0,No,No,49,Yes,Yes,Fiber optic,No,...,Yes,No,Yes,Yes,Month-to-month,Yes,Bank transfer (automatic),103.7,5036.3,Yes


In [64]:
clientesFugados.shape

(1869, 21)

In [65]:
len(clientesFugados)

1869

Son un total de `1869` clientes fugados representando un valor porcentual del `27%` del total de clientes

#### Identificando los estadísticos de  las variables cuantitativas de los clientes que se han fugado.
Se determinan de las variables cuantitativas los estadísticos y nuevamente se utiliza el método describe() para conocer éstos valores



In [54]:
clientesFugados.describe() # Arroja los estadísticos de las variables cuantitativas de clientesFugados

Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges
count,1869.0,1869.0,1869.0
mean,0.254682,17.979133,74.441332
std,0.435799,19.531123,24.666053
min,0.0,1.0,18.85
25%,0.0,2.0,56.15
50%,0.0,10.0,79.65
75%,1.0,29.0,94.2
max,1.0,72.0,118.35


##### Se destacan las dos variables cuantitativas importantes de los cientes que se retiran
* Aquí la media de la variable `tenure` es de `17.97` es decir que los clientes que se retiran en promedio duran casi 18 meses
* Comparado con la media de toda la población de clientes, la media de la variable `tenure` disminuyó de `32.37` a `17.97` meses 
* Por otra parte la media de los cargos mensuales `MonthlyCharges` en promedio es de `74.441332` 
* Comparado con la media de toda la población de clientes el valor en esta variable `MonthlyCharges`
aumentó de `64.761692` a `74.441332` el costo mensual. 
* Con esto tal vez podemos argumentar una hipótesis de que una razón por la que los 
clientes se retiran de la empresas es por `el alto costo de la cuota mensual o del pago mensual` 
que tienen que pagar.


#### Identificando cuál es la moda de las variables cualitativas de los clientes que se han fugado.
Para este análisis se utiliza nuevamente la instrucción describe() de las variables objeto o cualitativas, nos centraremos en la moda de algunas de ellas para encontrar cual es la mayor `frecuencia` en algunas variables de los clientes que se retiran. 
Sólo analizar la variable de `clientesFugados` previamente descrita.

In [30]:
clientesFugados.describe(include=[np.object]) # Arroja los estadísticos de las variables objeto de clientesFugados

Unnamed: 0,customerID,gender,Partner,Dependents,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,TotalCharges,Churn
count,1869,1869,1869,1869,1869,1869,1869,1869,1869,1869,1869,1869,1869,1869,1869,1869,1869.0,1869
unique,1869,2,2,2,2,3,3,3,3,3,3,3,3,3,2,4,1732.0,1
top,3208-YPIOE,Female,No,No,Yes,Yes,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,20.2,Yes
freq,1,939,1200,1543,1699,850,1297,1461,1233,1211,1446,942,938,1655,1400,1071,6.0,1869


Con la anterior información se observa lo siguiente:
###### Variables de `MENOR` impacto Serán las siguientes:
* La variable `gender` de género masculino o femenino no tiene impacto ya que aproximadamente el `50%` de los
`1869` registros está entre Female y Male.
* La variable `Partner` que significa que si el cliente tiene socios al igual que la variable 
`Dependents`, es decir que si el cliente tiene dependientes pueden resultar de interés porue tienen valores de 
frecuencias por encima de `1000` con respecto a los clientes que se retiran.
* Lo mismo sucede con variables tales como `InternetService`, `OnlineSecurity`, `OnlineBackup`, 
`DeviceProtection`, `TechSupport`, que tienen frecuencias por encima de `1000`, sin embargo
hay variables de mayor impacto o mayor frecuencia con respecto a los clientes que se retiran
###### Variables de `MAYOR` impacto Serán las siguientes:
* Hay dos variables con frecuencia muy alta, el atributo `PhoneService` que significa si el cliente tiene
servicio telefónico o no, tiene una frecuencia en su valor `Yes` de 1699, es decir un valor relativo de `1699 / 1869` y valor porcentual del `90%` 
es una variable de interés.
* Otra variable con frecuencia muy alta, el atributo `Contract` que significa por sus valores (Month-to-month, One year, Two year) 
que si un cliente tiene contrato mensual, anual o cada dos años. El valor de la 
frecuencia en en contratos `Month-to-month` es de `1655`, es decir un valor relativo de `1655 / 1869` y valor porcentual del `88%` 
es otra variable de interés.



In [47]:
n = len(clientesFugados)
print(n) # Total de clientes que se retiran
clientesFugados.groupby('gender').count()


1869


Unnamed: 0_level_0,customerID,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
Female,939,939,939,939,939,939,939,939,939,939,939,939,939,939,939,939,939,939,939,939
Male,930,930,930,930,930,930,930,930,930,930,930,930,930,930,930,930,930,930,930,930


El total de clientes que se retiran fueron `1869`
La anterior tabla de contingencia arroja un total de `939` mujeres con 
respecto a `930` hombres que se retiran de la empresa

In [48]:
clientesFugados.groupby('gender').sum()

Unnamed: 0_level_0,SeniorCitizen,tenure,MonthlyCharges
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Female,240,15967,70248.55
Male,236,17636,68882.3


El total de clientes que se retiran fueron ´1869´ y de los jubilados hay 476 registros.
La anterior tabla de contingencia arroja totales de género con respecto a otras variables; se observa 
que de los clientes que se retiran hay mas mujeres que hombres por un margen muy pequeño 
en aspectos como  jubilaciones.

In [53]:
clientesFugados.groupby('SeniorCitizen').count()


Unnamed: 0_level_0,customerID,gender,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
SeniorCitizen,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
0,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393,1393
1,476,476,476,476,476,476,476,476,476,476,476,476,476,476,476,476,476,476,476,476


In [55]:
clientesFugados.groupby('Contract').count()

Unnamed: 0_level_0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
Contract,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
Month-to-month,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655,1655
One year,166,166,166,166,166,166,166,166,166,166,166,166,166,166,166,166,166,166,166,166
Two year,48,48,48,48,48,48,48,48,48,48,48,48,48,48,48,48,48,48,48,48


Se vuelve a observar que de los clientes que se alejan son los que tienen contrato `mes a mes`, 
tal vez nos atrevemos a establecer que si se les aumenta el contrato a los clientes hay mayor 
probabilidad de que sean clientes mas fieles.


In [56]:
clientesFugados.groupby('PhoneService').count()

Unnamed: 0_level_0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
PhoneService,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
No,170,170,170,170,170,170,170,170,170,170,170,170,170,170,170,170,170,170,170,170
Yes,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699,1699


Se vuelve a observar que de los clientes que se alejan son los que tienen servicio telefónico `PhoneService`, 
tal vez nos atrevemos a establecer que si se les ofrece cancelar el servicio telefónico a los clientes hay mayor 
probabilidad de que sean clientes mas fieles.


### Conclusiones

### Proxima entrega
* Aplicar modelo de regresión para ver relación entre variables
* Aplicar Análisis de Componentes Principales ACP para averiguar cuáles variables son más 
importantes con respeco a la variable dependiente `Churn`