# **Churn Prediction**

![Churn Pred.png](attachment:194f0160-bc33-4b9b-9450-1298a9516122.png)

# **1. Introducción**

En la industria de las telecomunicaciones, los clientes pueden elegir entre una variedad de empresas para satisfacer sus necesidades de comunicación e internet. Los clientes son muy críticos con el tipo de servicios que reciben y juzgan toda la empresa en función de una sola experiencia. 

¡Estos servicios de comunicación se han vuelto tan recurrentes e inseparables de la rutina diaria que una pausa de mantenimiento de 30 minutos genera ansiedad en los usuarios, resaltando nuestra actitud de dar por sentado estos servicios! Sumado a los altos costos de adquisición de clientes, el análisis de la rotación se vuelve muy crucial. La tasa de rotación es una métrica que describe el número de clientes que cancelaron o no renovaron su suscripción con la empresa. 

Por lo tanto, cuanto mayor sea la tasa de rotación, más clientes dejarán de comprar en su negocio, afectando directamente los ingresos. Por lo tanto, basándose en los conocimientos adquiridos del análisis de la rotación, las empresas pueden construir estrategias, segmentar objetivos, mejorar la calidad de los servicios proporcionados para mejorar la experiencia del cliente, cultivando así la confianza con los clientes. ¡Por eso construir modelos predictivos y crear informes de análisis de rotación se vuelve fundamental que allana el camino para el crecimiento!

## **1.2 ¿Que es el *Churn*?**


La predicción del abandono de clientes implica identificar a los clientes en riesgo que probablemente cancelarán sus suscripciones o cerrarán/abandonarán sus cuentas. Un modelo de rotación funciona pasando datos de clientes anteriores a través de un modelo de aprendizaje automático para identificar las conexiones entre las características y los objetivos, y hacer predicciones sobre nuevos clientes.

La ventaja de calcular la tasa de abandono de una empresa es que proporciona claridad sobre qué tan bien la empresa está reteniendo a los clientes, lo que es un reflejo de la calidad del servicio que brinda la empresa, así como de su utilidad.

Si una empresa ve que su tasa de abandono aumenta de un período a otro, entonces comprende que un componente fundamental de la forma en que administra su negocio es defectuoso. La empresa puede estar ofreciendo un producto defectuoso, puede tener un mal servicio al cliente o su producto puede no ser atractivo para las personas que decidieron que el costo no vale la pena .

La tasa de abandono le indicará a una empresa que necesita comprender por qué sus clientes se van y dónde arreglar su negocio. El costo de adquirir nuevos clientes es mucho mayor que el de retener a los clientes actuales, por lo que, al asegurarse de que los clientes por los que trabajó duro para atraer sigan siendo clientes de pago, tiene sentido comprender la calidad de su negocio.


## **1.3 ¿Como se calcula el *Churn Rate*?**

![Churn rate.png](attachment:8bfa9c80-eeba-4a4d-8c36-6c25bf906947.png)

Digamos que tenías 1000 clientes al comienzo del mes, y para el final del mismo, solo tienes 800 de esos 1000 restantes. Eso significa que perdiste 200 clientes durante ese período, así que divides 200 entre 1000 y luego multiplicas por 100. Tu resultado es una tasa de rotación del 20%, lo cual es bastante alto.

Dependiendo de tu modelo de negocio, debes determinar el marco de tiempo adecuado para el cual deseas calcular la tasa de rotación, como mensual, trimestral, anual o de todos los tiempos.

## **1.4 Importancia de predecir el *Churn Rate* de clientes**

**Como empresa, ser capaz de predecir el churn es el primer paso para evitarlo. Si eres capaz de predecir el abandono de clientes, también podrás prevenirlo con las medidas adecuadas.**

La salud financiera de una empresa está relacionada con la tasa de abandono. Para seguir siendo competitivo en el mercado y crecer, la cantidad de nuevos consumidores cada mes debe ser mayor que la tasa de abandono.

Si el número de cancelaciones es mayor que el número de suscripciones, por ejemplo, es señal de que algo anda mal en la operación. Por lo tanto, es fundamental estar atento a este ritmo, para poder identificar tempranamente cualquier problema en el desempeño del negocio.

**Estas son algunas de las razones por las que debes prevenir el churn rate de clientes:**

1. La adquisición de nuevos clientes es costosa y supone un gran esfuerzo, mientras que la prevención del abandono de clientes es mucho más rentable. 

2. La competencia es cada vez mayor, los productos son a menudo similares o incluso intercambiables. Por lo tanto, la probabilidad de abandono es cada vez mayor. Por lo tanto, toda empresa debe tener estrategias para la retención de clientes a largo plazo. 

3. Hay muchos factores diferentes que conducen al churn rate de clientes y es importante que las empresas identifiquen, comprendan y eliminen cada uno de ellos para que los clientes sigan vinculados a la empresa. 

4. Identificar estos factores de pérdida de clientes es relativamente fácil con las herramientas adecuadas de gestión de la experiencia del cliente. Las encuestas periódicas y los análisis de los puntos de contacto a lo largo de todo el recorrido del cliente son el paso más importante en este sentido.

# **2. Descripción del Conjunto de datos**

## **Telco Customer Churn**

El conjunto de datos utilizado en este artículo está disponible en Kaggle  y contiene diecinueve columnas (variables independientes) que indican las características de los clientes de una corporación de telecomunicaciones ficticia. La columna de Churn (variable de respuesta) indica si el cliente se fue en el último mes o no.

La clase "No" incluye a los clientes que no abandonaron la empresa el mes pasado, mientras que la clase "Sí" contiene a los clientes que decidieron terminar sus relaciones con la empresa. El objetivo del análisis es obtener la relación entre las características del cliente y la rotación.

Atributos del Conjunto de Datos:

* **customerID
gender**: ID del cliente
* **customerID
gender**: Si el cliente es hombre o mujer
* **SeniorCitizen
Partner**: Si el cliente es un adulto mayor o no (1, 0)
* **SeniorCitizen
Partner**: Si el cliente tiene pareja o no (Sí, No)
* **Dependents**: Si el cliente tiene dependientes o no (Sí, No)
* **tenure**: Número de meses que el cliente ha estado con la empresa
* **PhoneService**: Si el cliente tiene servicio telefónico o no (Sí, No)
* **MultipleLines**: Si el cliente tiene múltiples líneas o no (Sí, No, Sin servicio telefónico)
* **InternetService**: Proveedor de servicios de internet del cliente (DSL, Fibra óptica, No)
* **OnlineSecurity**: Si el cliente tiene seguridad en línea o no (Sí, No, Sin servicio de internet)
* **OnlineBackup**: Si el cliente tiene respaldo en línea o no (Sí, No, Sin servicio de internet)
* **DeviceProtection**: Si el cliente tiene protección de dispositivo o no (Sí, No, Sin servicio de internet)
* **TechSupport**: Si el cliente tiene soporte técnico o no (Sí, No, Sin servicio de internet)
* **StreamingTV**: Si el cliente tiene TV en streaming o no (Sí, No, Sin servicio de internet)
* **StreamingMovies**: Si el cliente tiene películas en streaming o no (Sí, No, Sin servicio de internet)
* **Contract**: El plazo del contrato del cliente (Mensual, Un año, Dos años)
* **PaperlessBilling**: Si el cliente tiene facturación sin papel o no (Sí, No)
* **PaymentMethod**: El método de pago del cliente (Cheque electrónico, Cheque enviado por correo, Transferencia bancaria (automática), Tarjeta de crédito (automática))
* **MonthlyCharges**: La cantidad cobrada al cliente mensualmente
* **TotalCharges**: La cantidad total cobrada al cliente
* **Churn**: Si el cliente se fue o no (Sí o No)

**Importamos las librerias necesarias**

In [None]:
import pandas as pd
import numpy as p
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
pd.options.display.float_format = '{:.2f}'.format
import warnings 
warnings.filterwarnings('ignore')

In [None]:
#Librerias para el modelo
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.metrics import precision_recall_curve

#Librerias para el "sampling"
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
from imblearn.pipeline import Pipeline as imbPipeline

In [None]:
#Cargamos los datos
data = pd.read_csv('WA_Fn-UseC_-Telco-Customer-Churn.csv')

#Veemos las primeras 5 filas
data.head()

**Tamaño del conjunto de datos:**

In [None]:
data.shape

**Vemos el nombre de sus columnas:**

In [None]:
data.columns

**Vemos la informacion sobre valores "null" y tipo de dato:**

In [None]:
data.info()

**Analizamos los valores del conjunto de datos**

In [None]:
#Realizamos una iteracion sobre las columnas para ver la cantidad de valores unicos.

for column in data.columns:
    num_distinct_values = len(data[column].unique())
    print(f"{column}: {num_distinct_values} distinct values")

**Calidad de los datos:**

In [None]:
#Manejamos los valores duplicados

duplicate_rows_data = data[data.duplicated()]
print("Number of duplicated rows: ", duplicate_rows_data.shape)

**Veemos los estadisticos de los datos:**

In [None]:
data.describe().T


* El conjunto de datos tiene demasiadas columnas con datos de texto y probablemente son columnas categóricas. 
* **"Total Charges"** es una característica con valores numéricos pero se almacenan en el tipo de dato de cadena. Primero, convertiremos esta columna a tipo flotante.

**Transformaciones de columnas:**

In [None]:
#Convertimos las columnas del data frame de "string" a "float" usando el siguiente codigo:

l1 = [len(i.split()) for i in data['TotalCharges']]
list_2 = [i for i in range(len(l1)) if l1[i] != 1]
print('Index positions with empty spaces : ', *list_2)

for i in list_2:
    data.loc[i, 'TotalCharges'] = data.loc[(i-1),'TotalCharges']


data['TotalCharges'] = data['TotalCharges'].astype(float)
data.drop(columns= ['customerID'], inplace=True)

* Mientras se convertía TotalCharges a tipo float, ocurrió un error con el mensaje que describe que no se pudo convertir una cadena a tipo float.

* Este mensaje apareció debido a las cadenas vacías presentes en las posiciones de índice mostradas arriba de la columna TotalCharges. Como estos elementos estaban definidos como cadenas, no aparecían como valores nulos y, por lo tanto, el mapa de calor para valores faltantes no mostraba nada. Por ejemplo: a = ' '

* Por lo tanto, dividimos los elementos individuales de TotalCharges y almacenamos los valores de índice de los elementos cuya longitud de cadena dividida no es igual a 1.

* Esto creó una lista con números de índice de las cadenas vacías que se llenan con su valor precedente y, finalmente, toda la columna se convierte en float usando la función astype.

* También eliminamos la columna customerID



**Dividamos las características en características numéricas y categóricas.**

También ejecutaremos la transformación de codificación de etiquetas para características categóricas.

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

df = data.copy(deep = True)
text_data_features = [i for i in list(data.columns) if i not in list(data.describe().columns)]

print('Label Encoder Transformation')
for i in text_data_features:
    df[i] = le.fit_transform(df[i])
    print(i, ' : ',df[i].unique(), ' = ', le.inverse_transform(df[i].unique()))

Estamos creando una copia profunda del conjunto de datos original y codificando las variables de texto.
Las modificaciones en el conjunto de datos original no se destacarán en esta copia profunda.

Por lo tanto, usamos esta copia profunda del conjunto de datos que tiene todas las características convertidas en valores numéricos para fines de visualización y modelado.
Ahora, nuevamente obtenemos las estadísticas descriptivas de los datos.

**Veemos las estadistica de los datos**

In [None]:
df.describe()

In [None]:
#Realizamos una gráfica para ver los promedios de las variables segun si abandono o no el servicio

colors = ['#E94B3C','#2D2923']

churn = df[df['Churn'] == 1].describe().T
not_churn = df[df['Churn'] == 0].describe().T

fig,ax = plt.subplots(nrows = 1,ncols = 2,figsize = (5,5))
plt.subplot(1,2,1)
sns.heatmap(churn[['mean']],annot = True,cmap = colors,linewidths = 0.4,linecolor = 'black',cbar = False,fmt = '.2f')
plt.title('Churned Customers');

plt.subplot(1,2,2)
sns.heatmap(not_churn[['mean']],annot = True,cmap = colors,linewidths = 0.4,linecolor = 'black',cbar = False,fmt = '.2f',)
plt.title('Not_Churned Customers');

fig.tight_layout(pad = 0)


 **Análisis de los resultados:**

**Promedios de todas las características para clientes que se han dado de baja y clientes que no se han dado de baja.**

**1.** Claramente, los clientes que se dieron de baja tenían una baja tasa media de permanencia de 17.98 meses en comparación con aquellos que continuaron con un período de permanencia promedio de 37.57 meses.

**2.** Los valores medios de **OnlineSecurity, OnlineBackup, DeviceProtection y TechSupport** son más altos para los clientes que no se dieron de baja que para los clientes que se dieron de baja. **¡Esto puede servir como un buen indicador o punto en el que enfocarse!**

**3.** El **valor del contrato** de los clientes que se dieron de baja es mucho más bajo que el de los clientes que no se dieron de baja.

**4.** El **promedio de los cargos mensuales de los clientes que se dieron de baja, 74.44, es mayor que el de los clientes que no se dieron de baja, 61.27.**

**5.** Los **TotalCharges de los clientes que no se dieron de baja, 2557.31, son más altos que los de los clientes que se dieron de baja, 1531.80.**

**6.** A partir de estos valores medios, podemos decir que algunas de las características muestran una diferencia clara que puede ayudar a enfocarse más en los clientes que se dieron de baja para asegurarse de que retengan los servicios.

**7.** El conjunto de datos tiene demasiadas características categóricas, por lo que los valores medios de las características están cerca de 0.



**Ahora pasaremos a la sección de EDA y analizaremos las características con más detalle.**

# **3. Análisis exploratorio de datos (EDA)**

**3.1 Dividimos las variables entre numéricas y categóricas** 

In [None]:
columns = list(df.columns)

categorical_features = []
numerical_features = []

for feature in columns:
    if data[feature].nunique() > 6:
        numerical_features.append(feature)
    else:
        categorical_features.append(feature)
        
print('Categorical Features:')
print(', '.join(categorical_features))
print('Numerical Features:')
print(', '.join(numerical_features))

**Aquí, las características categóricas se definen si el atributo tiene menos de 6 elementos únicos, de lo contrario, es una característica numérica. El enfoque típico para esta división de características también puede basarse en los tipos de datos de los elementos del atributo respectivo.**

*Por ejemplo: tipo de datos = entero -> atributo = característica numérica; tipo de datos = cadena -> atributo = característica categórica.*

**Para este conjunto de datos, como el número de características es menor, también podemos verificar manualmente el conjunto de datos.**

**3.2 Visualización de la variable objetivo.**

In [None]:
cant = list(df['Churn'].value_counts())
circle = [cant[0] / sum(cant) * 100,cant[1] / sum(cant) * 100]

fig = plt.subplots(nrows = 1,ncols = 2,figsize = (20,5))
plt.subplot(1,2,1)
plt.pie(circle,labels = ['Not-Churn Customer','Churn Customer'],autopct = '%1.1f%%',startangle = 90,explode = (0.1,0),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('Churn - Not-Churn %');

plt.subplot(1, 2, 2)
ax = sns.countplot(x='Churn', data=df, palette=colors, edgecolor='black')
for rect in ax.patches:
    ax.text(rect.get_x() + rect.get_width() / 2, rect.get_height() + 2, int(rect.get_height()), horizontalalignment='center', fontsize=11)
ax.set_xticklabels(['Not-Churn Customers', 'Churn Customers'])

plt.title('Number of Churn - Not-Churn Customers')
plt.show()


**El conjunto de datos está desequilibrado en una proporción cercana a 3:1 para clientes No-Churn : Churn.**

**Debido a esto, las predicciones estarán sesgadas hacia los clientes No-Churn.**

**¡Las visualizaciones también mostrarán este sesgo!**

**3.3 Variables Categoricas vs Variable Objetivo (Churn):**

In [None]:
categorical_features.remove('Churn')

****Vamos a eliminar la variable "Churn", la variable objetivo de la lista de características categóricas con fines de visualización.****

A su vez, en vistas de mejorar la visualizacion, continuamos agrupando las variables categoricas en 3 grupos.

In [None]:
list_1 = ['gender','SeniorCitizen','Partner','Dependents'] # Informacion del cliente

list_2 = ['PhoneService','MultipleLines','InternetService','StreamingTV','StreamingMovies',
          'OnlineSecurity','OnlineBackup','DeviceProtection','TechSupport'] # Servicios del usuario

list_3 = ['Contract','PaperlessBilling','PaymentMethod'] # Informacion del metodo de pago

**Grupo 1: Informacion del cliente**

gender | SeniorCitizen | Partner | Dependents |

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(20, 14))

for i, feature in enumerate(list_1):
    plt.subplot(2, 2, i+1)
    ax = sns.countplot(x=feature, data=data, hue="Churn", palette=colors, edgecolor='black')
    for rect in ax.patches:
        ax.text(rect.get_x() + rect.get_width() / 2, rect.get_height() + 2, int(rect.get_height()), horizontalalignment='center', fontsize=11)
    title = feature + ' vs Churn'
    plt.title(title)

plt.tight_layout()
plt.show()

**Análisis de los resultados:**

**1.** La deserción de clientes para clientes masculinos y femeninos es muy similar entre sí. 

**2.** Del mismo modo, el número de clientes SeniorCitizen es bastante bajo. De ese total, podemos observar que cerca del 40% de los clientes SeniorCitizen se dan de baja. Esto representa un total de 476 clientes de un total de 1142 clientes Senior Citizen. 

**3.** Los clientes que viven con una pareja tienen menos probabilidad de darse de baja en comparación con aquellos que no viven con una pareja. 

**4.** De manera similar, la deserción es alta para los clientes que no tienen dependientes con ellos.

**Grupo 2: Servicios del Usuario**

PhoneService | MultipleLines | InternetService | StreamingTV | StreamingMovies |

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 5))

for i, feature in enumerate(list_2[:2]):
    plt.subplot(1, 2, i + 1)
    ax = sns.countplot(x=feature, data=data, hue="Churn", palette=colors, edgecolor='black')
    for rect in ax.patches:
        ax.text(rect.get_x() + rect.get_width() / 2, rect.get_height() + 2, int(rect.get_height()), horizontalalignment='center', fontsize=11)
    plt.title(f"{feature} vs Churn")

plt.tight_layout()
plt.show()

fig, axes = plt.subplots(nrows=1, ncols=1, figsize=(6, 5))

ax = sns.countplot(x=list_2[2], data=data, hue="Churn", palette=colors, edgecolor='black')
for rect in ax.patches:
    ax.text(rect.get_x() + rect.get_width() / 2, rect.get_height() + 2, int(rect.get_height()), horizontalalignment='center', fontsize=11)
plt.title(f"{list_2[2]} vs Churn")

plt.tight_layout()
plt.show()

fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 5))

for i, feature in enumerate(list_2[3:5]):
    plt.subplot(1, 2, i + 1)
    ax = sns.countplot(x=feature, data=data, hue="Churn", palette=colors, edgecolor='black')
    for rect in ax.patches:
        ax.text(rect.get_x() + rect.get_width() / 2, rect.get_height() + 2, int(rect.get_height()), horizontalalignment='center', fontsize=11)
    plt.title(f"{feature} vs Churn")

plt.tight_layout()
plt.show()


**Análisis de los resultados:**


**1.** Para PhoneService, a pesar de no tener servicio telefónico, se retuvieron más clientes en comparación con la cantidad de clientes que dejaron los servicios. 

**2.** En el caso de MultipleLines, la tasa de abandono es la misma independientemente de si hay múltiples líneas o no. 

**3.** Un gran número de clientes ha mostrado resistencia hacia el uso de cables de fibra óptica para proporcionar el servicio de Internet. Por el contrario, según el gráfico anterior, los clientes prefieren usar DSL para su servicio de Internet. 

**4.** StreamingTV y StreamingMovies muestran un gráfico idéntico. 
Independientemente de estar suscrito a StreamingTV y StreamingMovies, muchos clientes han abandonado. Parece que el contenido de streaming no fue completamente culpable.






**Grupo 2: Servicios del Usuario**

OnlineSecurity | OnlineBackup | DeviceProtection | TechSupport |

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(20, 14))

for i, feature in enumerate(list_2[-4:]):
    plt.subplot(2, 2, i + 1)
    ax = sns.countplot(x=feature, data=data, hue="Churn", palette=colors, edgecolor='black')
    for rect in ax.patches:
        ax.text(rect.get_x() + rect.get_width() / 2, rect.get_height() + 2, int(rect.get_height()), horizontalalignment='center', fontsize=11)
    plt.title(f"{feature} vs Churn")

plt.tight_layout()
plt.show()


**Análisis de resultados**

**1.** Cuando se trata de atender a los clientes, los servicios relacionados con la seguridad en línea **(OnlineSecurity)**, respaldo en línea **(OnlineBackup)**, protección de dispositivos **(DeviceProtection)** y soporte técnico **(TechSupport)** son cruciales según las visualizaciones anteriores. 

**2.** Un gran número de clientes han cambiado de proveedor de servicios cuando se trata de servicios deficientes con las características mencionadas anteriormente.

**Grupo 3: Informacion sobre metodo de pago**

Contract | PaperlessBilling | PaymentMethod |

In [None]:
fig = plt.subplots(nrows = 1,ncols = 3,figsize = (25,7))

plt.subplot(1,3,1)
ax = sns.countplot(x=list_3[0], hue="Churn", data=data, palette=colors, edgecolor='black')

for rect in ax.patches:
    ax.text(rect.get_x() + rect.get_width() / 2, rect.get_height() + 2, int(rect.get_height()), horizontalalignment='center', fontsize = 11)
title = list_3[0] + ' vs Churn'
plt.title(title);

plt.subplot(1,3,2)
ax = sns.countplot(x=list_3[1], hue="Churn", data=data, palette=colors, edgecolor='black')

for rect in ax.patches:
    ax.text(rect.get_x() + rect.get_width() / 2, rect.get_height() + 2, int(rect.get_height()), horizontalalignment='center', fontsize = 11)
title = list_3[1] + ' vs Churn'
plt.title(title);

plt.subplot(1,3,3)
ax = sns.countplot(x=list_3[2], hue="Churn", data=data, palette=colors, edgecolor='black')
for rect in ax.patches:
    ax.text(rect.get_x() + rect.get_width() / 2, rect.get_height() + 2, int(rect.get_height()), horizontalalignment='center', fontsize = 11)
title = list_3[2] + ' vs Churn'
plt.title(title);

**Análisis de resultados**

**1.** 
La pérdida de clientes para un contrato basado en Mes a Mes es bastante alta. Esto probablemente se debe a que los clientes están probando los diversos servicios disponibles para ellos y, por lo tanto, para ahorrar dinero, se prueba el servicio de un mes.

**2.** Otra razón puede ser que la experiencia general con el servicio de Internet, el servicio de transmisión y el servicio telefónico no fueron consistentes. Cada cliente tiene una prioridad diferente y, por lo tanto, si uno de los tres estaba a la altura, todo el servicio se cortaba.


**3.** La facturación sin papel muestra un alto número de clientes que abandonan el servicio. Esto probablemente se debe a algún problema de pago o problemas de recibos.

**4.** Los clientes claramente resentían el método de pago mediante cheque electrónico. De los 2365 recibos pagados utilizando cheque electrónico, un impresionante total de 1071 clientes salieron del servicio debido a este método de pago. La empresa definitivamente necesita eliminar el método de cheque electrónico o hacerlo sin complicaciones y fácil de usar.


**3.4 Variables Categoricas vs Variable Objetivo Positivas *(Casos que el cliente abandono el servicio)*:**

Ahora analizamos directamente la distribucion en la variable objetivo en los casos positivos.

**Grupo 1: Informacion del cliente**

gender | SeniorCitizen | Partner | Dependents |

In [None]:
gender = df[df['Churn'] == 1]['gender'].value_counts()
gender = [gender[0] / sum(gender) * 100, gender[1] / sum(gender) * 100]

seniorcitizen = df[df['Churn'] == 1]['SeniorCitizen'].value_counts()
seniorcitizen = [seniorcitizen[0] / sum(seniorcitizen) * 100,seniorcitizen[1] / sum(seniorcitizen) * 100] # No - Yes

partner = df[df['Churn'] == 1]['Partner'].value_counts()
partner = [partner[0] / sum(partner) * 100,partner[1] / sum(partner) * 100] # No - Yes

dependents = df[df['Churn'] == 1]['Dependents'].value_counts()
dependents = [dependents[0] / sum(dependents) * 100,dependents[1] / sum(dependents) * 100] # No - Yes

In [None]:
ax,fig = plt.subplots(nrows = 1,ncols = 4,figsize = (15,15))

plt.subplot(1,4,1)
plt.pie(gender,labels = ['Female','Male'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('Gender');

plt.subplot(1,4,2)
plt.pie(seniorcitizen,labels = ['No', 'Yes'],autopct='%1.1f%%',startangle = 90,explode = (0,0.1),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('SeniorCitizen');

plt.subplot(1,4,3)
plt.pie(partner,labels = ['No','Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('Partner');

plt.subplot(1,4,4)
plt.pie(dependents,labels = ['No','Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('Dependents');


**Análisis de resultados**

**1.** Podemos observar una división clara del 50% - 50% entre los clientes hombres y mujeres que han cambiado sus servicios. Por lo tanto, la razón del cambio está relacionada con algún aspecto del servicio o algún proceso al que los clientes reaccionaron negativamente.


**2.** ¡El 75% de los clientes que abandonaron el servicio no son personas mayores! Esta es una información importante a la que la empresa debe prestar atención.


**3.** Los clientes que viven solos han cancelado los servicios. Según los datos de Parejas y Dependientes, en promedio, el 73.4% de los clientes que abandonaron el servicio vivían solos.








**Grupo 2: Servicios del Usuario**

PhoneService | MultipleLines | InternetService | StreamingTV | StreamingMovies |

In [None]:
phoneservice = df[df['Churn'] == 1]['PhoneService'].value_counts()
phoneservice = [phoneservice[0] / sum(phoneservice) * 100, phoneservice[1] / sum(phoneservice) * 100] 

multiplelines = df[df['Churn'] == 1]['MultipleLines'].value_counts()
multiplelines = [multiplelines[0] / sum(multiplelines) * 100,multiplelines[1] / sum(multiplelines) * 100, multiplelines[2] / sum(multiplelines) * 100] 

internetservice = df[df['Churn'] == 1]['InternetService'].value_counts()
internetservice = [internetservice[0] / sum(internetservice) * 100,internetservice[1] / sum(internetservice) * 100, internetservice[2] / sum(internetservice) * 100] 

streamingtv = df[df['Churn'] == 1]['StreamingTV'].value_counts()
streamingtv = [streamingtv[0] / sum(streamingtv) * 100,streamingtv[1] / sum(streamingtv) * 100, streamingtv[2] / sum(streamingtv) * 100] 

streamingmovies = df[df['Churn'] == 1]['StreamingMovies'].value_counts()
streamingmovies = [streamingmovies[0] / sum(streamingmovies) * 100,streamingmovies[1] / sum(streamingmovies) * 100, streamingmovies[2] / sum(streamingmovies) * 100] 

In [None]:
ax,fig = plt.subplots(nrows = 1,ncols = 2,figsize = (8,8))

plt.subplot(1,2,1)
plt.pie(phoneservice,labels = ['No', 'Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('PhoneService');

plt.subplot(1,2,2)
plt.pie(multiplelines,labels = ['No','No Phone Service','Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0,0.1),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('MultipleLines');

ax,fig = plt.subplots(nrows = 1,ncols = 3,figsize = (12,12))

plt.subplot(1,3,1)
plt.pie(internetservice,labels = ['DSL', 'Fiber Optic','No'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0,0.1),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('InternetService');

plt.subplot(1,3,2)
plt.pie(streamingtv,labels = ['No', 'No Internet Service','Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0,0.1),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('StreamingTV');

plt.subplot(1,3,3)
plt.pie(streamingmovies,labels = ['No', 'No Internet Service','Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0,0.1),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('StreamingMovies');

**Análisis de resultados**

**1.** A pesar de ofrecer el servicio telefónico, un alto porcentaje de clientes han cambiado de proveedor.

**2.** De manera similar, la disponibilidad de múltiples líneas no importó, ya que la cancelación del servicio se llevó a cabo de todos modos.

**3.** ¡Los clientes definitivamente no apreciaron el enfoque de los cables de fibra óptica para proporcionar el servicio de Internet, con un sólido 70% optando por cancelar los servicios!

**4.** Para StreamingTV y StreamingMovies, los clientes sin estos servicios definitivamente cancelaron su suscripción, sin embargo, un promedio del 43.7% de los clientes cambió de proveedor a pesar de consumir el contenido en streaming.









**Grupo 2: Servicios del Usuario**

OnlineSecurity | OnlineBackup | DeviceProtection | TechSupport |

In [None]:
onlinesecurity = df[df['Churn'] == 1]['OnlineSecurity'].value_counts()
onlinesecurity = [onlinesecurity[0] / sum(onlinesecurity) * 100,onlinesecurity[1] / sum(onlinesecurity) * 100, onlinesecurity[2] / sum(onlinesecurity) * 100] 

onlinebackup = df[df['Churn'] == 1]['OnlineBackup'].value_counts()
onlinebackup = [onlinebackup[0] / sum(onlinebackup) * 100,onlinebackup[1] / sum(onlinebackup) * 100, onlinebackup[2] / sum(onlinebackup) * 100] 

deviceprotection = df[df['Churn'] == 1]['DeviceProtection'].value_counts()
deviceprotection = [deviceprotection[0] / sum(deviceprotection) * 100,deviceprotection[1] / sum(deviceprotection) * 100, deviceprotection[2] / sum(deviceprotection) * 100] 

techsupport = df[df['Churn'] == 1]['TechSupport'].value_counts()
techsupport = [techsupport[0] / sum(techsupport) * 100,techsupport[1] / sum(techsupport) * 100, techsupport[2] / sum(techsupport) * 100] 

In [None]:
ax,fig = plt.subplots(nrows = 1,ncols = 4,figsize = (15,15))

plt.subplot(1,4,1)
plt.pie(onlinesecurity,labels = ['No', 'No Internet Service','Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0,0.1),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('OnlineSecurity');

plt.subplot(1,4,2)
plt.pie(onlinebackup,labels = ['No', 'No Internet Service','Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0.1,0),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('OnlineBackup');

plt.subplot(1,4,3)
plt.pie(deviceprotection,labels = ['No', 'No Internet Service','Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0,0.1),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('DeviceProtection');

plt.subplot(1,4,4)
plt.pie(techsupport,labels = ['No', 'No Internet Service','Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0,0.1),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('TechSupport');

**Análisis de resultados**

**1.** Los gráficos circulares anteriores destacan la importancia de proporcionar OnlineSecurity, OnlineBackup, DeviceProtection y TechSupport, ya que un promedio del 71.6% de los clientes cancelaron sus servicios debido a la falta de estas características.





**Grupo 3: Informacion sobre metodo de pago**

Contract | PaperlessBilling | PaymentMethod |

In [None]:
contract = df[df['Churn'] == 1]['Contract'].value_counts()
contract = [contract[0] / sum(contract) * 100, contract[1] / sum(contract) * 100, contract[2] / sum(contract) * 100] 

paperlessbilling = df[df['Churn'] == 1]['PaperlessBilling'].value_counts()
paperlessbilling = [paperlessbilling[0] / sum(paperlessbilling) * 100,paperlessbilling[1] / sum(paperlessbilling) * 100] 

paymentmethod = df[df['Churn'] == 1]['PaymentMethod'].value_counts()
paymentmethod = [paymentmethod[0] / sum(paymentmethod) * 100, paymentmethod[1] / sum(paymentmethod) * 100, 
paymentmethod[2] / sum(paymentmethod) * 100, paymentmethod[3] / sum(paymentmethod) * 100] 


In [None]:
ax,fig = plt.subplots(nrows = 1,ncols = 3,figsize = (12,12))

plt.subplot(1,3,1)
plt.pie(contract,labels = ['Month-to-month','One year','Two year'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0.1,0.1),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('Contract');

plt.subplot(1,3,2)
plt.pie(paperlessbilling,labels = ['No', 'Yes'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('PaperlessBilling');

plt.subplot(1,3,3)
plt.pie(paymentmethod,labels = ['Bank Transfer (automatic)','Credit Card (automatic)','Electronic check','Mailed check'],autopct='%1.1f%%',startangle = 90,explode = (0.1,0,0.1,0),colors = colors,
       wedgeprops = {'edgecolor' : 'black','linewidth': 1,'antialiased' : True})
plt.title('PaymentMethod');

**Análisis de resultados**

**1.** La duración del contrato mensual tiene la mayor participación cuando se trata de la rotación de clientes, con un enorme 88.6% de los clientes.

**2.** La facturación sin papel parece no ser apreciada por los clientes.

**3.** Definitivamente se necesita resolver el problema con el cheque electrónico, ya que representa el 57.3% de la rotación. Luego le siguen el cheque enviado por correo, la transferencia bancaria (automática) y la tarjeta de crédito (automática).











**3.5 Variables Númericas**



**Distribucion de variables numericas:**

In [None]:
fig, ax = plt.subplots(nrows = 1,ncols = 3,figsize = (15,5))
for i in range(len(numerical_features)):
    plt.subplot(1,3,i+1)
    sns.distplot(df[numerical_features[i]],color = colors[0])
    title = 'Distribution : ' + numerical_features[i]
    plt.title(title)
plt.show()

**1.** La tenencia **(tenure)** y los cargos mensuales **(MonthlyCharges)** crean una distribución bimodal con picos presentes en 0 - 70 y 20 - 80 respectivamente. 

**2.** **TotalCharges** muestra una distribución sesgada positivamente o hacia la derecha.

**Relacion de variables númericas con la variable objetivo**

In [None]:
fig, ax = plt.subplots(nrows = 3,ncols = 1,figsize = (15,15))
for i in range(len(numerical_features)):
    plt.subplot(3,1,i+1)
    sns.countplot(x=numerical_features[i],data = df,hue = "Churn",palette = colors,edgecolor = 'black')
    plt.legend(['No Churn','Churn'],loc = 'upper left')
    title = numerical_features[i] + ' w.r.t Churn'
    plt.title(title);

* Dado el tiempo de tenencia (tenure), un gran número de clientes han abandonado después del primer mes. Esta alta cancelación de servicios continúa durante 4-5 meses, pero el número de clientes que se dan de baja ha disminuido desde el primer mes. A medida que aumenta la tenencia, la cantidad de clientes que se dan de baja disminuye.

* Esto resulta en una baja cancelación de clientes a medida que aumenta la tenencia. Se muestra un gráfico simétrico con el lado izquierdo dominado por los números de cancelación y el lado derecho dominado por los números de cancelación bajos.

* Debido a la gran cantidad de puntos de datos únicos en MonthlyCharges y TotalCharges, es difícil obtener algún tipo de información. Por lo tanto, escalaremos estas características numéricas para visualización comprensible y para obtener información. Esto lleva los puntos de datos variados a un valor constante que representa un rango de valores.



**Aquí, dividimos los puntos de datos de las características numéricas por 5 o 500 y asignamos su valor de cociente como la constante representativa para ese punto de datos. Las constantes de escala se deciden al examinar los datos y la intuición.**

In [None]:
df['MonthlyCharges_Group'] = [int(i/5) for i in df['MonthlyCharges']]
df['TotalCharges_Group'] = [int(i/500) for i in df['TotalCharges']]

fig, ax = plt.subplots(nrows = 2,ncols = 1,figsize = (20,10))
for i in range(len(numerical_features[1:])):
    plt.subplot(2,1,i+1)
    sns.countplot(x=numerical_features[1 + i]+'_Group',data = df,hue = "Churn",palette = colors,edgecolor = 'black')
    plt.legend(['No Churn','Churn'],loc = 'upper left')
    title = numerical_features[1 + i] + ' w.r.t Churn'
    plt.title(title);

* Para el grupo de cargos mensuales (MonthlyCharges), la tasa de cancelación es alta para los valores entre 65 (13x5) y 105 (21x5). Este rango de valores de cargos mensuales causó que los clientes cambiaran de proveedor.

* Un número muy alto de clientes optaron por salir de los servicios para los TotalCharges por debajo de 500. Esta cancelación de clientes continúa para un rango de valores de TotalCharges de 0 (0x500) a 1000 (2x500).

**3.6 Variables Númericas vs Variables Categoricas en relacion a la Variable Objetivo (Churn):**


**Tenure vs Grupo 1: gender | SeniorCitizen | Partner | Dependents |**



In [None]:
fig = plt.subplots(nrows = 2,ncols = 2,figsize = (15,10))
for i in range(4):
    plt.subplot(2,2,i+1)
    ax = sns.boxplot(x = list_1[i],y = 'tenure',data = data,hue = 'Churn',palette = colors);
    plt.title('tenure vs ' + list_1[i]);

* Los gráficos de abandono de clientes masculinos y femeninos son muy similares.

* Los clientes SeniorCitizen optaron por salir de los servicios durante un período de permanencia de 0 a 35 meses. De 20 a 35 meses es el período de toma de decisiones sobre si continuar o cambiar para los SeniorCitizen.

* De manera similar, los clientes con parejas continuaron con el servicio durante un período de permanencia de 5 a 45 meses.

**Tenure vs Grupo 2: PhoneService | MultipleLines | InternetService | StreamingTV | StreamingMovies |**






In [None]:
fig = plt.subplots(nrows = 1,ncols = 2,figsize = (15,5))

for i in range(len(list_2[0:2])):
    plt.subplot(1,2,i + 1)
    ax = sns.boxplot(x = list_2[i],y = 'tenure',data = data,hue = 'Churn',palette = colors);
    plt.title('tenure vs ' + list_2[i]);

fig = plt.subplots(nrows = 1, ncols = 1, figsize = (6,5))

plt.subplot(1,1,1)
ax = sns.boxplot(x = list_2[2],y = 'tenure',data = data,hue = 'Churn',palette = colors);
plt.title('tenure vs ' + list_2[2]);
    
fig = plt.subplots(nrows = 1,ncols = 2,figsize = (12,5))

for i in range(len(list_2[3:5])):
    plt.subplot(1,2,i + 1)
    ax = sns.boxplot(x = list_2[i + 3],y = 'tenure',data = data,hue = 'Churn',palette = colors);
    plt.title('tenure vs ' + list_2[i + 3]);

* La presencia de MultipleLines aumenta la mediana de MonthlyCharges independientemente de si los clientes optan por salir de los servicios o no.

* Para el gráfico de permanencia vs PhoneService, la disponibilidad de PhoneService o no muestra una visualización en espejo. Los clientes probablemente no eran usuarios frecuentes de teléfono (llamadas - mensajes).

* Para InternetService, los clientes parecen ser muy escépticos sobre el uso de cables de fibra óptica, ya que la cancelación duró alrededor de 30 a 35 meses antes de continuar con el servicio o cambiar a otro.

* De manera similar para StreamingTV y StreamingMovies, se puede observar un período de permanencia en el abandono de alrededor de 10 a 40 meses.

**Tenure vs Grupo 2: OnlineSecurity | OnlineBackup | DeviceProtection | TechSupport |**




In [None]:
fig = plt.subplots(nrows = 2,ncols = 2,figsize = (20,14))
for i in range(len(list_2[-4:])):
    plt.subplot(2,2,i + 1)
    ax = sns.boxplot(x = list_2[i - 4],y = 'tenure',data = data,hue = 'Churn',palette = colors);
    plt.title('tenure vs ' + list_2[i-4]);

* Para OnlineSecurity, OnlineBackup, DeviceProtection y TechSupport, el valor medio de permanencia en la cancelación es de 25 meses. El valor más alto de esta permanencia en la cancelación es de alrededor de 45 meses.

* El período de 30 a 35 meses es cuando los clientes toman una decisión sobre si continuar con los servicios actuales o cambiar con respecto a las características mencionadas anteriormente.

**Tenure vs Grupo 3 : Contract | PaperlessBilling | PaymentMethod |**

In [None]:
fig = plt.subplots(nrows = 1,ncols = 3,figsize = (25,7))
for i in range(len(list_3)):
    plt.subplot(1,3,i + 1)
    ax = sns.boxplot(x = list_3[i],y = 'tenure',data = data,hue = 'Churn',palette = colors);
    plt.title('tenure vs ' + list_3[i]);

* Cuando los clientes firman contratos de uno y dos años para los servicios, parecen continuar con los servicios durante aproximadamente 25 y 45 meses respectivamente. Sin embargo, comienzan a cuestionar los servicios y a pensar en cambiar a partir del mes 35 y del mes 55 respectivamente.

* Independientemente del PaperlessBilling, los clientes piensan en cambiar desde el primer mes.

* En cuanto al PaymentMethod, la permanencia mediana en la cancelación de Transferencia bancaria (automática) y Tarjeta de crédito (automática), por encima de los 20 meses, es casi el doble que la de Cheque electrónico y Cheque enviado por correo, alrededor de 10 meses y alrededor de 5 meses respectivamente.

**3.7 Monthly Charges vs Variables Categoricas en relacion a la Variable Objetivo (Churn):**

**MonthlyCharges vs Grupo 1: gender | SeniorCitizen | Partner | Dependents |**

In [None]:
fig = plt.subplots(nrows = 2,ncols = 2,figsize = (15,10))
for i in range(4):
    plt.subplot(2,2,i+1)
    ax = sns.boxplot(x = list_1[i],y = 'MonthlyCharges',data = data,hue = 'Churn',palette = colors); 
    plt.title('MonthlyCharges vs ' + list_1[i]);


* Para todas las características mencionadas anteriormente, el valor mediano de los clientes que no se cancelan es muy cercano al límite inferior de los clientes que se cancelan.

* Los clientes masculinos y femeninos tienen el mismo valor mediano de MonthlyCharges, alrededor de 60. 

* Para los SeniorCitizen, este valor se eleva a 80. Los clientes que viven con un socio tienen un límite inferior más alto de cancelación, MonthlyCharges de 70, que aquellos que viven solos, con MonthlyCharges justo por debajo de 60.

**MonthlyCharges vs Grupo 2: PhoneService | MultipleLines | InternetService | StreamingTV | StreamingMovies |**

In [None]:
fig = plt.subplots(nrows = 1,ncols = 2,figsize = (15,5))

for i in range(len(list_2[0:2])):
    plt.subplot(1,2,i + 1)
    ax = sns.boxplot(x = list_2[i],y = 'MonthlyCharges',data = data,hue = 'Churn',palette = colors);
    plt.title('MonthlyCharges vs ' + list_2[i]);

fig = plt.subplots(nrows = 1, ncols = 1, figsize = (6,5))

plt.subplot(1,1,1)
ax = sns.boxplot(x = list_2[2],y = 'MonthlyCharges',data = data,hue = 'Churn',palette = colors);
plt.title('MonthlyCharges vs ' + list_2[2]);
    
fig = plt.subplots(nrows = 1,ncols = 2,figsize = (12,5))

for i in range(len(list_2[3:5])):
    plt.subplot(1,2,i + 1)
    ax = sns.boxplot(x = list_2[i + 3],y = 'MonthlyCharges',data = data,hue = 'Churn',palette = colors);
    plt.title('MonthlyCharges vs ' + list_2[i + 3]);

* El costo mensual de los cables de fibra óptica es muy alto. Por lo tanto, podría ser la razón de la alta cancelación de clientes. 

* Del mismo modo, el costo mensual de StreamingTV y StreamingMovies es bastante alto. 

* El rango de cargos mensuales para el servicio telefónico va de 25 a 85, pero los clientes piensan en cancelar el servicio a partir de un valor de 75 en los cargos mensuales.

**MonthlyCharges vs Grupo 2: OnlineSecurity | OnlineBackup | DeviceProtection | TechSupport |**

In [None]:
fig = plt.subplots(nrows = 2,ncols = 2,figsize = (20,14))
for i in range(len(list_2[-4:])):
    plt.subplot(2,2,i + 1)
    ax = sns.boxplot(x = list_2[i - 4],y = 'MonthlyCharges',data = data,hue = 'Churn',palette = colors);
    plt.title('MonthlyCharges vs ' + list_2[i-4]);


* Para OnlineSecurity, OnlineBackup, DeviceProtection y TechSupport, el rango de valores va desde aproximadamente 50 hasta 100. 

* Los clientes que se suscriben a estos servicios probablemente no piensan en cancelar la suscripción debido a los cargos mensuales, ya que el rango de valores de los clientes que se dan de baja y continúan es casi el mismo.

**MonthlyCharges vs Grupo 3: Contract | PaperlessBilling | PaymentMethod |**

In [None]:
fig = plt.subplots(nrows = 1,ncols = 3,figsize = (25,7))

for i in range(len(list_3)):
    plt.subplot(1,3,i + 1)
    ax = sns.boxplot(x = list_3[i],y = 'MonthlyCharges',data = data,hue = 'Churn',palette = colors);
    title = 'MonthlyCharges vs ' + list_3[i]
    plt.title(title);

*  El límite inferior de los cargos mensuales es más alto para el contrato de Mes a Mes que para los contratos de un año y dos años. Sin embargo, el límite inferior de los clientes que interrumpen los servicios es más bajo para el contrato de Mes a Mes.

*  El límite inferior del pago electrónico es muy alto y puede ser un factor importante por el cual los clientes se resisten a usarlo. Mientras que el pago por correo tiene los valores iniciales más bajos de clientes que abandonaron y continuaron.

**3.8 Total Charges vs Variables Categoricas en relacion a la Variable Objetivo (Churn):**

**TotalCharges vs grupo 1: Customer Information : gender | SeniorCitizen | Partner | Dependents |**

In [None]:
fig = plt.subplots(nrows = 2,ncols = 2,figsize = (15,10))
for i in range(4):
    plt.subplot(2,2,i+1)
    ax = sns.boxplot(x = list_1[i],y = 'TotalCharges',data = data,hue = 'Churn',palette = colors);
    plt.title('TotalCharges vs ' + list_1[i]);


* El total de cargos para clientes masculinos y femeninos es bastante similar. 

* Los clientes ancianos que continuaron con los servicios tienen valores iniciales y finales más altos de TotalCharges. Los clientes que viven con su pareja tienen un valor medio más alto de TotalCharges en comparación con los que viven solos.

**TotalCharges vs Grupo 2: Services Subscribed by the Customer: PhoneService | MultipleLines | InternetService | StreamingTV | StreamingMovies |**

In [None]:
fig = plt.subplots(nrows = 1,ncols = 2,figsize = (15,5))

for i in range(len(list_2[0:2])):
    plt.subplot(1,2,i + 1)
    ax = sns.boxplot(x = list_2[i],y = 'TotalCharges',data = data,hue = 'Churn',palette = colors);
    plt.title('TotalCharges vs ' + list_2[i]);

fig = plt.subplots(nrows = 1, ncols = 1, figsize = (6,5))

plt.subplot(1,1,1)
ax = sns.boxplot(x = list_2[2],y = 'TotalCharges',data = data,hue = 'Churn',palette = colors);
plt.title('TotalCharges vs ' + list_2[2]);
    
fig = plt.subplots(nrows = 1,ncols = 2,figsize = (12,5))

for i in range(len(list_2[3:5])):
    plt.subplot(1,2,i + 1)
    ax = sns.boxplot(x = list_2[i + 3],y = 'TotalCharges',data = data,hue = 'Churn',palette = colors);
    plt.title('TotalCharges vs ' + list_2[i + 3]);


* El total de cargos del servicio telefónico oscila entre 0 y 4000. Sin embargo, los clientes comienzan a dudar sobre el servicio telefónico cuando los cargos totales alcanzan alrededor de 1000. 

* Del mismo modo, los clientes comienzan a dudar de pagar alrededor de 2000 por líneas múltiples. Sin embargo, algunos clientes parecen estar desesperados por tener múltiples líneas, ya que pagan un valor de alrededor de 6000 por ellas.

* Cuando se trata de pagar por cables de fibra óptica, los clientes prueban los productos pagando alrededor de 2000. 

* Similar a la fibra óptica, para StreamingTV y StreamingMovies, los clientes que continúan con los servicios pagan de 3000 a 6000.

**TotalCharges vs Grupo 2: OnlineSecurity | OnlineBackup | DeviceProtection | TechSupport |**

In [None]:
fig = plt.subplots(nrows = 2,ncols = 2,figsize = (20,14))
for i in range(len(list_2[-4:])):
    plt.subplot(2,2,i + 1)
    ax = sns.boxplot(x = list_2[i - 4],y = 'TotalCharges',data = data,hue = 'Churn',palette = colors);
    plt.title('TotalCharges vs ' + list_2[i-4]);

* Para todas las características mencionadas anteriormente, los clientes comienzan a dudar de pagar alrededor de 2000. Este valor medio de los clientes que cancelan el servicio está muy cerca del límite inferior de los clientes que continúan con este servicio.

* Los clientes que no cancelan están dispuestos a pagar de 2000 a 6000 en cargos totales.

**TotalCharges vs Grupo 3 : Contract | PaperlessBilling | PaymentMethod |**

In [None]:
fig = plt.subplots(nrows = 1,ncols = 3,figsize = (25,7))

for i in range(len(list_3)):
    plt.subplot(1,3,i + 1)
    ax = sns.boxplot(x = list_3[i],y = 'TotalCharges',data = data,hue = 'Churn',palette = colors);
    plt.title('TotalCharges vs ' + list_3[i]);

* Los valores medios de los clientes que deciden darse de baja de los servicios que tienen contratos de un año y dos años son altos, alrededor de 4000 y 6000 respectivamente. Algunos clientes con contratos de dos años incluso pagaron alrededor de 7000.

* En cuanto al método de pago, los clientes dudan en pagar usando cheque electrónico para un rango más corto de 0 a 2000, mientras que para la transferencia bancaria (automática) y la tarjeta de crédito (automática) este rango es de alrededor de 0 a 4000.

**3.9 Variables Categoricas vs Variables Numéricas en relacion a la variable objetivo (Churn)**

In [None]:
a = 0
fig,ax = plt.subplots(nrows = 3,ncols = 1,figsize = (15,15))
for i in range(len(numerical_features)):
    for j in range(len(numerical_features)):
        if i != j and j > i:
            a += 1
            plt.subplot(3,1,a)
            sns.scatterplot(x = numerical_features[i],y = numerical_features[j],data = df,hue = 'Churn',palette = colors,edgecolor = 'black');
            plt.legend(['No Churn','Churn'],loc = 'upper left',)
            title = numerical_features[i] + ' vs ' + numerical_features[j]
            plt.title(title)

* Para el período de tenencia de 0 a 20 meses, la cancelación de clientes ocurre en cualquier valor de cargos mensuales. Sin embargo, para un período de tenencia de 20 a 60 meses, los clientes en el extremo superior de los valores de cargos mensuales, es decir, entre 70 y 120, comienzan a darse de baja de los servicios.

* En cuanto a la relación entre TotalCharges y tenencia, a medida que aumenta la tenencia, también aumentan los TotalCharges. Los clientes que optan por cancelar sus planes son aquellos que son cobrados con el monto más alto durante su período de tenencia, junto con algunos clientes cuyos cargos totales se encuentran en el rango medio.

* Los clientes parecen haber decidido cancelar sus suscripciones cuando los cargos mensuales alcanzan los 70 y más.

## **Resumen de Analisis exploratorio de datos:**

**Basado en el análisis exploratorio de datos (EDA), el siguiente orden o rango de valores tiende a resultar en la cancelación de clientes:**

**Variables Categóricas (Orden):**

* gender: Masculino = Femenino
* SeniorCitizen: No SeniorCitizen > SeniorCitizen
* Partner: Sin Pareja > Pareja
* Dependents: Sin Dependientes > Dependientes
* PhoneService: ServicioTelefónico > Sin ServicioTelefónico
* MultipleLines: MúltiplesLíneas > Sin MúltiplesLíneas > Sin ServicioTelefónico
* InternetService: Fibra Óptica > DSL > Sin Servicio de Internet
* OnlineSecurity: Ausente > Presente > Sin Servicio de Internet
* OnlineBackup: Ausente > Presente > Sin Servicio de Internet
* DeviceProtection: Ausente > Presente > Sin Servicio de Internet
* TechSupport: Ausente > Presente > Sin Servicio de Internet
* StreamingTV: Ausente > Presente > Sin Servicio de Internet
* StreamingMovies: Ausente > Presente > Sin Servicio de Internet
* Contract: Mes a Mes > Un Año > Dos Años
* PaperlessBilling: Presente > Ausente
* PaymentMethod: Cheque Electrónico > Cheque por Correo > Transferencia Bancaria (automática) > Tarjeta de Crédito (automática)

**Variables Numéricas (Rango):**

* tenure: 1 - 5 meses
* MonthlyCharges: 65 - 105
* TotalCharges: 0 - 1000

# **4. Ingeniería de Características (FE)**

**4.1 Escalado de datos** 

In [None]:
from sklearn.preprocessing import MinMaxScaler,StandardScaler

MinMaxScaler = MinMaxScaler() #Para la normalizacion de los datos
StandarScaler = StandardScaler() #Para el escalado de los datos.

df.drop(columns = ['MonthlyCharges_Group','TotalCharges_Group'], inplace = True)

df['tenure'] = MinMaxScaler.fit_transform(df[['tenure']])
df['MonthlyCharges'] = MinMaxScaler.fit_transform(df[['MonthlyCharges']])
df['TotalCharges'] = MinMaxScaler.fit_transform(df[['TotalCharges']])
df.head()


Es crucial escalar los datos en el aprendizaje automático porque los modelos no entienden inherentemente las unidades de los valores de las características. Tratan cada entrada como un valor numérico sin tener en cuenta su significado en el mundo real. Por lo tanto, la escalabilidad se vuelve necesaria para asegurar que todas las características contribuyan por igual a las predicciones del modelo.

**Hay dos opciones principales para escalar los datos:**

**1. Normalización:** Esta técnica se aplica a características cuyos datos no siguen una distribución normal (gaussiana). Reescala los valores de una característica a un rango entre 0 y  En tu caso, características como tenure, MonthlyCharges y TotalCharges, que mostraron una distribución sesgada a la derecha y bimodal, se normalizan.

**2. Estandarización:** Este método se utiliza para características que siguen una distribución normal o tienen valores significativamente más grandes o más pequeños que los de otras características. La estandarización transforma los valores de una característica para que tengan una media de 0 y una desviación estándar de 1. En tus datos, ninguna de las características requiere estandarización según el análisis proporcionado.

Al aplicar la normalización y la estandarización de manera apropiada, te aseguras de que tus características estén en una escala similar, lo que puede mejorar el rendimiento y la estabilidad de los modelos de aprendizaje automático, especialmente aquellos sensibles a las escalas de características, como los algoritmos basados en distancias o las redes neuronales.






**4.2 Matrix de Correlación**

In [None]:
plt.figure(figsize = (20,5))
sns.heatmap(df.corr(),cmap= colors, annot = True)

* **Es una matriz enorme con demasiadas características. Solo revisaremos la correlación con respecto a "Churn".**

In [None]:
Matrix_Corr = df.corrwith(df['Churn']).sort_values(ascending = False).to_frame()
Matrix_Corr.columns = ['Correlations']
plt.subplots(figsize = (5,5))
sns.heatmap(Matrix_Corr,annot = True,cmap = colors,linewidths = 0.4,linecolor = 'black');
plt.title('Correlation w.r.t Outcome');


* MulipleLines, PhoneService, género, StreamingTV, StreamingMovies e InternetService no muestran ningún tipo de correlación. Eliminamos las características con un coeficiente de correlación entre (-0.1, 0.1).

* Las características restantes muestran una correlación significativa positiva o negativa.

**4.3 Selección de Variables para Variables categóricas:**

In [None]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2,mutual_info_classif 

**Test Cuadrados Chi**

In [None]:
features = df.loc[:,categorical_features]
target = df.loc[:,'Churn']

best_features = SelectKBest(score_func = chi2,k = 'all')
fit = best_features.fit(features,target)

featureScores = pd.DataFrame(data = fit.scores_,index = list(features.columns),columns = ['Chi Squared Score']) 

plt.subplots(figsize = (5,5))
sns.heatmap(featureScores.sort_values(ascending = False,by = 'Chi Squared Score'),annot = True,cmap = colors,linewidths = 0.4,linecolor = 'black',fmt = '.2f');
plt.title('Selection of Categorical Features');


* **PhoneService, gender, StreamingTV, StreamingMovies, MultipleLines, and InternetService muestran una baja correlacion con Churn**

**4.4 Selección de Variables para Variables numéricas:**

In [None]:
from sklearn.feature_selection import f_classif

**Test de ANNOVA**

In [None]:
features = df.loc[:,numerical_features]
target = df.loc[:,'Churn']

best_features = SelectKBest(score_func = f_classif,k = 'all')
fit = best_features.fit(features,target)

featureScores = pd.DataFrame(data = fit.scores_,index = list(features.columns),columns = ['ANOVA Score']) 

plt.subplots(figsize = (5,5))
sns.heatmap(featureScores.sort_values(ascending = False,by = 'ANOVA Score'),annot = True,cmap = colors,linewidths = 0.4,linecolor = 'black',fmt = '.2f');
plt.title('Selection of Numerical Features');


* Según el test de ANOVA, cuanto mayor sea el valor del puntaje de ANOVA, mayor será la importancia de la característica.

* De acuerdo a los resultados anteriores, necesitamos incluir todas las características numéricas para el modelado.

In [None]:
df.drop(columns = ['PhoneService', 'gender','StreamingTV','StreamingMovies','MultipleLines','InternetService'],inplace = True)
df.head()

# **5. Análisis de Predicción**

**5.1 Desequilibrio de clases**

A partir del Análisis Exploratorio de Datos (EDA), se observa que el conjunto de datos está desbalanceado (con un 26% de casos positivos para la Churn y un 74% de casos negativos de Churn), por lo que es esencial balancear los datos para asegurar que el modelo no se sesgue hacia la clase mayoritaria. Con este fin, se utiliza la Técnica de Sobremuestreo Sintético de la Clase Minoritaria (SMOTE, por sus siglas en inglés), la cual genera muestras sintéticas para la clase minoritaria.

In [None]:
#Mostramos la distribucion de casos para confirmar

# Porcentajes de casos de diabetes
positivos_Churn = (df['Churn'] == 1).sum()
negativos_Churn = (df['Churn'] == 0).sum()
porcentajes = [positivos_Churn, negativos_Churn]

# Etiquetas para los porcentajes
etiquetas = ['Churn', 'No Churn']

# Colores para las porciones
colores = colors

# Crear el gráfico de torta
plt.pie(porcentajes, labels=etiquetas, colors=colores, autopct='%1.1f%%', startangle=140)

# Título del gráfico
plt.title('Distribución de casos de Churn')

# Mostrar el gráfico
plt.axis('equal')
plt.show()

In [None]:
import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import TomekLinks
from imblearn.pipeline import Pipeline
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc, precision_recall_curve
from xgboost import XGBClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer, roc_auc_score
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.model_selection import learning_curve
from sklearn.model_selection import GridSearchCV
from imblearn.over_sampling import ADASYN
from sklearn.metrics import roc_curve, auc

### **Técnicas de Remuestreo**

* **SMOTE (Synthetic Minority Over-sampling Technique):**

SMOTE es una técnica de sobremuestreo utilizada para abordar el desequilibrio de clases en conjuntos de datos, específicamente cuando la clase minoritaria está subrepresentada. Lo que hace SMOTE es generar muestras sintéticas para la clase minoritaria mediante la interpolación de instancias existentes en el espacio de características. Básicamente, SMOTE crea nuevas instancias sintéticas de la clase minoritaria mediante la combinación de ejemplos cercanos de la misma clase.

* **RandomUnderSampler**:

El RandomUnderSampler es una técnica de remuestreo utilizada en el contexto de problemas de desequilibrio de clases en conjuntos de datos de aprendizaje automático.

El RandomUnderSampler aborda este problema seleccionando aleatoriamente una muestra de la clase mayoritaria (o clases) para que esté más equilibrada con respecto a la clase minoritaria. Esto se logra eliminando aleatoriamente instancias de la clase mayoritaria hasta que la proporción de clases en el conjunto de datos sea más equitativa.

In [None]:
#Definimos las funciones para el remuestreo

over = ADASYN(sampling_strategy=0.5)
under = RandomUnderSampler(sampling_strategy= 0.5)

In [None]:
#Separamos los datos en objetivo y las variables a utilizar

X = df.drop('Churn', axis=1)
y = df['Churn']

### **5.2 Pipeline**

Las pipelines de imblearn, son herramientas poderosas utilizadas para automatizar y estructurar flujos de trabajo en el procesamiento de datos desbalanceados en problemas de aprendizaje automático.

**Algunos de los principales beneficios son:**

1. Preprocesamiento y remuestreo integrados: Las pipelines de imblearn permiten combinar pasos de preprocesamiento de datos, como escalado, selección de características, con técnicas de remuestreo específicas para abordar el desequilibrio de clases, como SMOTE o RandomUnderSampler.

2. Facilitan la replicación y validación cruzada: Al encapsular todos los pasos de preprocesamiento, remuestreo y modelado en una sola entidad, las pipelines facilitan la replicación de experimentos y la aplicación de validación cruzada de manera más eficiente.

3. Evitan fugas de datos: Al tener todos los pasos de procesamiento dentro de la pipeline, se reduce el riesgo de fugas de datos, ya que las transformaciones se aplican de manera consistente a los datos en cada iteración.

In [None]:
#Creamos una PipeLine que preprocese los datos y luego entrene al clasificador


clf = imbPipeline(steps=[
                        ('over', over),
                        ('under',under),
                        ('classifier', RandomForestClassifier())
                        ])

### **5.3 Construcción del modelo y Ajuste de hiperparámetros**

Se construye una Pipeline que primero aplica los pasos de preprocesamiento y luego entrena un modelo en los datos. Utilizamos un modelo de RandomForestClassifier, que es un algoritmo popular y potente para tareas de clasificación.

Los hiperparámetros del modelo se ajustan utilizando GridSearchCV, que realiza una búsqueda exhaustiva sobre los valores de parámetro especificados para el estimador. El mejor modelo en rendimiento se selecciona basado en la validación cruzada.

In [None]:
#Definimos los Hiperparámetros y los valores a testear

param_grid = {
    'classifier__n_estimators': [50, 100, 200],
    'classifier__max_depth': [None, 10, 20],
    'classifier__min_samples_split': [2, 5, 10],
    'classifier__min_samples_leaf': [1, 2, 4]
}

In [None]:
# Create Grid Search object
grid_search = GridSearchCV(clf, param_grid, cv=5)

# Split data into train and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Train the model
grid_search.fit(X_train, y_train)

# Print the best parameters
print("Best Parameters: ", grid_search.best_params_)


**Interpretación de los resultados:**

Los mejores parámetros para nuestro modelo de Random Forest, encontrados durante el ajuste de hiperparámetros, son los siguientes:

**1. max_depth de 10:** Esto indica que la profundidad máxima de los árboles en el bosque es de 10 niveles. Limitar la profundidad del árbol ayuda a prevenir el sobreajuste. Una profundidad moderada parece ser óptima para nuestros datos, permitiendo que el modelo capture patrones relevantes sin caer en el sobreajuste.

**2. min_samples_leaf de 4:** Indica que cada hoja del árbol debe contener al menos cuatro muestras. Este parámetro, al igual que max_depth, es una medida para controlar el sobreajuste. Al requerir al menos cuatro muestras en una hoja para hacer una predicción, el modelo puede evitar ajustarse a valores atípicos o ruido en los datos de entrenamiento.

**3. min_samples_split de 5:** Nos dice que un nodo debe contener al menos cinco muestras para poder dividirse y crear dos nodos hijos. Similar al parámetro min_samples_leaf, esto contribuye a controlar el sobreajuste al imponer restricciones en la creación de divisiones en los árboles.

**4. n_estimators de 100:** Este es el número de árboles de decisión en el bosque. Tener un mayor número de estimadores generalmente conlleva a un mejor rendimiento del modelo, ya que se promedian las predicciones de más árboles, reduciendo así el sobreajuste y la varianza.

Estos parámetros, derivados del proceso de ajuste de hiperparámetros, nos proporcionan información sobre la estructura de los datos y la complejidad del modelo que mejor se adapta a esa estructura. La profundidad del árbol moderadamente restringida y los requisitos para el número mínimo de muestras en cada nodo sugieren un modelo lo suficientemente complejo como para capturar patrones importantes en los datos, pero no tan complejo como para sobreajustarse al ruido o a los valores atípicos. Este equilibrio es fundamental para lograr un modelo que generalice bien con datos nuevos.

In [None]:
#Transformamos los resultados del GridSearchCV a un Dataframe y los graficamos.

resulst_df = pd.DataFrame(grid_search.cv_results_)
plt.figure(figsize=(8,6))
sns.lineplot(data=resulst_df, x='param_classifier__n_estimators', y='mean_test_score', hue='param_classifier__max_depth', palette='PRGn')
plt.title('Hyperparameters Tuning Results')
plt.xlabel('Number of Estimators')
plt.ylabel('Mean Test Score')
plt.show()

In [None]:
#Realizamos las predicciones en el conjunto de prueba utilizando el mejor modelo encontrado

y_pred = grid_search.predict(X_test)

#Evaluamos el modelo
print("Model Accuracy: ", accuracy_score(y_test, y_pred))
print(classification_report(y_test,y_pred))



**🔍 Interpretación de Resultados:**

**1. Precisión:** La precisión indica la proporción de predicciones positivas correctas respecto al total de predicciones positivas realizadas por el modelo. En este caso, el modelo tiene una precisión del 87% para la clase 0 (no churn) y del 64% para la clase 1 (churn). Esto significa que el 87% de las instancias predichas como no churn y el 64% de las instancias predichas como churn son realmente de esas clases.

**2. Recall:** El recall indica la proporción de instancias positivas reales que fueron correctamente identificadas por el modelo. El modelo tiene un recall del 87% para la clase 0 (no churn) y del 63% para la clase 1 (churn). Esto significa que el modelo identificó correctamente el 87% de todas las instancias reales de no churn y el 63% de todas las instancias reales de churn.

**3. F1-Score:** La puntuación F1 es la media armónica de precisión y recall. Proporciona una medida de precisión equilibrada con el recall. El F1-score del modelo es del 87% para la clase 0 (no churn) y del 64% para la clase 1 (churn).

**4. Support:** El soporte indica el número de instancias reales para cada clase en los datos de prueba. Hay 1036 instancias de la clase 0 (no churn) y 373 instancias de la clase 1 (churn).

**5.Accuracy:** La exactitud del modelo indica la proporción de predicciones correctas respecto al total de predicciones realizadas por el modelo. En este caso, la exactitud del modelo es del 81%, lo que significa que el modelo predijo correctamente la clase para el 81% de todas las instancias.

**6. Macro Avg:** El promedio de precisión, recall o F1-score sin considerar la proporción para cada clase. En este caso, el promedio macro de precisión, recall y F1-score es del 75%.

**7.Weighted Avg:** El promedio de precisión, recall o F1-score considerando la proporción para cada clase. En este caso, el promedio ponderado de precisión, recall y F1-score es del 81%.

**🔍 Observaciones:**

* Los resultados muestran que el modelo tiene una precisión y un recall ligeramente más altos para la clase 0 (no churn) en comparación con la clase 1 (churn). Esto indica que el modelo es mejor para predecir instancias de no churn que instancias de churn.

* La precisión general del modelo es del 81%, lo que indica que el modelo hace la predicción correcta para el 81% de las instancias en el conjunto de prueba.

* El F1-score promedio macro es del 75%, lo que sugiere un rendimiento decente del modelo en general, pero podría mejorarse especialmente en la predicción de la clase 1 (churn).

* En resumen, aunque el modelo tiene un buen rendimiento general, existen áreas de mejora, especialmente en la predicción de la clase minoritaria (churn).

**5.4 Matriz de Confusion**

El modelo entrenado se evalúa en el conjunto de prueba. La matriz de confusión se utiliza para visualizar el rendimiento del modelo. Muestra las predicciones de verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos del modelo.

Precision: La precisión es una medida de cuántas de las predicciones verdaderamente positivas fueron realmente correctas. Se define como el número de verdaderos positivos (TP) dividido por la suma de verdaderos positivos (TP) y falsos positivos (FP).

Recall: La recuperación (o Sensibilidad) es una medida de cuántos de los casos positivos reales fueron identificados correctamente. Se define como el número de verdaderos positivos (TP) dividido por la suma de verdaderos positivos (TP) y falsos negativos (FN).

F1-Score: La puntuación F1 es la media armónica de Precisión y Recuperación e intenta encontrar el equilibrio entre precisión y recuperación. Se define como 2 veces el producto de precisión y recuperación dividido por la suma de precisión y recuperación.

In [None]:
#Graficamos la matriz de confusión

cm = confusion_matrix(y_test,y_pred)
plt.figure(figsize=(8,6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix')
plt.xlabel('Predicted')
plt.ylabel('True')
plt.show()

**🔍 Interpretación de Resultados:**

**True Negatives (TN): 904** - El modelo predijo correctamente la clase 0 (no churn) para estas instancias.

**False Positives (FP): 132** - El modelo predijo incorrectamente la clase 1 (churn) para estas instancias, que en realidad son de la clase 0 (no churn).

**False Negatives (FN): 138** - El modelo predijo incorrectamente la clase 0 (no churn) para estas instancias, que en realidad son de la clase 1 (churn).

**True Positives (TP): 235** - El modelo predijo correctamente la clase 1 (churn) para estas instancias.

Esto nos indica que el modelo es razonablemente bueno identificando verdaderos negativos (clase 0), pero tiene bastantes falsos positivos, es decir, predice la clase 1 para muchas instancias que en realidad son clase 0. El modelo tiene un número relativamente pequeño de falsos negativos y un número menor de verdaderos positivos, lo que indica que es más conservador al predecir la clase 1.

En resumen, el modelo tiene un buen rendimiento en la predicción de la clase mayoritaria (no churn), pero tiene margen de mejora en la predicción de la clase minoritaria (churn), especialmente en la reducción de los falsos positivos.

**5.5 Curva ROC** 


La curva ROC (Receiver Operating Characteristic) es una herramienta utilizada para evaluar el rendimiento de un modelo de clasificación binaria en función de su capacidad para discriminar entre clases positivas y negativas. La curva ROC representa la tasa de verdaderos positivos (sensibilidad) en el eje y frente a la tasa de falsos positivos (1 - especificidad) en el eje x para diferentes umbrales de clasificación.

La curva ROC es útil porque proporciona una representación gráfica de la capacidad de discriminación de un modelo en diferentes niveles de sensibilidad y especificidad. Además, el área bajo la curva ROC (AUC-ROC) es una métrica comúnmente utilizada para cuantificar la capacidad discriminativa global del modelo. Un AUC-ROC cercano a 1 indica un modelo excelente que puede distinguir perfectamente entre clases positivas y negativas, mientras que un valor cercano a 0.5 sugiere que el modelo es similar a una clasificación aleatoria.

In [None]:
# Calcula las probabilidades de predicción para la clase positiva
y_score = grid_search.predict_proba(X_test)[:,1]

# Calcula la tasa de verdaderos positivos y la tasa de falsos positivos
fpr, tpr, _ = roc_curve(y_test, y_score)

# Calcula el área bajo la curva ROC (AUC)
roc_auc = auc(fpr, tpr)

# Grafica la curva ROC
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc='lower right')
plt.show()


# **6. Oportunidades: Reducir la Pérdida de Clientes y Aumentar los Ingresos**


* 3 tipos de clientes deberían ser objetivos: **SeniorCitizen, vivir con una pareja, vivir completamente solos.**

* El número de clientes SeniorCitizen es bajo pero su límite inferior de MonthlyCharges es más alto que el de otros clientes. Por lo tanto, l**os clientes SeniorCitizen están dispuestos a pagar más, pero necesitan ser atendidos con ese nivel de servicio.** Para los clientes con una pareja y los clientes que viven solos, prefieren servicios con MonthlyCharges por debajo de 65.

* Para crear una base sólida de clientes, la compañía Telco necesita crear un punto de entrada fácil y asequible para sus servicios. **Durante los primeros 6 meses, necesita centrarse extensamente en OnlineSecurity, OnlineBackup, DeviceProtection y TechSupport, ya que este período es el más crítico e incierto para los clientes.** ¡Deben reducir el tiempo de permanencia de 40 a 50 meses para estos servicios!

* Una vez que construyan un sólido conjunto de servicios de soporte para los clientes, necesitan fomentar el uso de MultipleLines y cables de fibra óptica para PhoneService e InternetService respectivamente. **Pero el gran obstáculo para estos 2 servicios es el punto de partida de 75+ en MonthlyCharges.**

* Por lo tanto, necesitan crear combinaciones de opciones proporcionadas para PhoneService e InternetService donde el promedio de estos MonthlyCharges esté en el rango de 100 a 120:

**1. Sin MultipleLines + OpticFiber**

**2. MultipleLines + DSL**

   Esto aumentará el ingreso promedio de un usuario ya que elimina por completo la opción de elegir una combinación de Sin MultipleLines + DSL cuyo MonthlyCharges promedio     probablemente sea de 60 a 70.

* StreamingTV y StreamingMovies también deben ser asequibles, así como reducir su tiempo de permanencia. El contenido de estos servicios debe dirigirse a todos los tipos de clientes. Esto debe seguirse con un método de pago fácil y sin problemas.

* Necesita poner fin al cheque electrónico para fines de pago debido a su alta rotación y centrarse completamente en Transferencia bancaria (automática) y Tarjeta de crédito (automática). Sin embargo, enfrentarán el desafío de reducir el tiempo de permanencia mediano de más de 20 meses para estos 2 métodos de pago, que es el doble del tiempo de permanencia del cheque electrónico.

* El límite inferior del cheque electrónico es de alrededor de 60 mientras que el de la Transferencia bancaria (automática) y la Tarjeta de crédito (automática) es de alrededor de 20 en MonthlyCharges. PaperlessBilling es otra característica costosa con un punto de partida de 60, mientras que las otras opciones son baratas comenzando en 20 en MonthlyCharges.

* Una vez que el MonthlyCharges para cualquier servicio único alcanza la marca de 70, los clientes se vuelven muy conscientes de sus MonthlyCharges. **¡La calidad del servicio necesita ser el punto de venta único de la compañía Telco! ¡Estas medidas impulsarán los ingresos y mejorarán el proceso actual de entrega de valor!**

# **7. Resumen y Conclusiones**

* Este es un gran conjunto de datos que brinda la oportunidad de analizar un problema comercial del mundo real y puede ser abordado con técnicas de ciencia de datos.

* Los conocimientos obtenidos del Análisis Exploratorio de Datos son muy valiosos para comprender la efectividad de los sistemas existentes. También ayudan a elaborar planes y medidas para contrarrestar los problemas o estar en un bucle infinito de mejora.

* Se utiliza el análisis SMOTE para el equilibrio de datos. También se pueden emplear combinaciones de submuestreo y sobremuestreo. Se probó el submuestreo para este problema, pero dio como resultado que el puntaje F1 (Churn) estuviera en el rango del 60 al 70%. También existen otros métodos de equilibrio de datos disponibles.

* En cuanto al rendimiento del modelo, se llevó a cabo la creación de características combinando características, sin embargo, no superaron a los modelos actuales. La sintonización de hiperparámetros y la detección de valores atípicos también podrían mejorar el puntaje F1 (Churn) y el puntaje de validación cruzada. 