# CONTENIDO

## Introducción
    Objetivo del Proyecto
    Descripción del Conjunto de Datos

## Análisis Exploratorio de Datos (EDA)   
        
## Preprocesamiento de Datos     
        
## Entrenamiento de Modelos de Clasificación
    
## Evaluación de Modelos
    
## Conclusiones y Recomendaciones

# Detectar clientes que probablemente cancelen una suscripción a un servicio
                           (Análisis de Churn en un Conjunto de Datos de Telecomunicaciones)# Detectar clientes que probablemente cancelen una suscripción a un servicio
    
En este proyecto, el objetivo es identificar la fuga de clientes, es decir, aquellos clientes más propensos a cancelar la suscripción a una ficticia empresa de telecomunicaciones. Es un problema realmente interesante porque si se pudiera predecir con antelación qué clientes están en riesgo de irse, se podrían reducir los esfuerzos de retención de clientes dirigiéndolos hacia esos clientes específicos, proporcionando intervenciones adecuadas para fomentar que permanezcan y minimizar las salidas de clientes.

El conjunto de datos para este ejercicio contiene características de la cuenta y el uso para clientes que se fueron y clientes que no. El conjunto de datos de Telecomunicaciones fue obtenido de un repositorio público de OpenML. Se trata de un problema de clasificación supervisada y se utilizarán algoritmos de aprendizaje automático para desarrollar modelos predictivos y evaluar la precisión y el rendimiento. El objetivo es encontrar el modelo más apropiado para el negocio.

# Análisis exploratorio

Analizaremos conjuntos de datos para resumir sus principales características, con métodos visuales y cuantitativos.

In [None]:
! pip install imblearn          

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [None]:
# Ruta base donde se encuentran los archivos CSV
ruta_base = r'D:\Carlo\Documentos\Business Analyst Certificate\TRIPLE TEN\Sprint17\final_provider\final_provider'

# Lista de nombres de archivos CSV que quieres leer
archivos = ['contract.csv', 'internet.csv', 'personal.csv', 'phone.csv']

dfs = []

# Intentamos leer cada archivo y manejamos excepciones si ocurren
for archivo in archivos:
    try:
        ruta_completa = f'{ruta_base}\\{archivo}'
        df = pd.read_csv(ruta_completa)
        dfs.append(df)
        print(f'Se ha leído correctamente el archivo {archivo}')
    except FileNotFoundError:
        print(f'ERROR: No se encontró el archivo {archivo}')
    except pd.errors.EmptyDataError:
        print(f'ERROR: El archivo {archivo} está vacío')
    except pd.errors.ParserError as e:
        print(f'ERROR al leer el archivo {archivo}: {e}')

# Asignamos cada DataFrame a las variables con try-except
try:
    df_Contract = dfs[0]
except IndexError:
    print("ERROR: No se pudo asignar df_Contract, revise si se leyó correctamente el archivo.")

try:
    df_Internet = dfs[1]
except IndexError:
    print("ERROR: No se pudo asignar df_Internet, revise si se leyó correctamente el archivo.")

try:
    df_Personal = dfs[2]
except IndexError:
    print("ERROR: No se pudo asignar df_Personal, revise si se leyó correctamente el archivo.")

try:
    df_Phone = dfs[3]
except IndexError:
    print("ERROR: No se pudo asignar df_Phone, revise si se leyó correctamente el archivo.")

# Ahora puedes utilizar df_Contract, df_Internet, df_Personal, y df_Phone como necesites en tu análisis posterior.

# Preprocesamiento

# Contratos

In [None]:
df_Contract.head(10)

In [None]:
df_Contract.info()

Podemos ver que los datos no tienen faltantes al tener completas las filas en cada columna, sin embargo,  Sin embargo, la columna TotalCharges está representada como tipo 'object' (cadena de caracteres)lo cual sugiere que debería ser de tipo 'float' (número decimal) para representar mejor los datos numéricos. Sería necesario convertir la columna TotalCharges de tipo 'object' a 'float' para un análisis numérico preciso.

In [None]:
#Funcion para pasar columnas al formato snake_case
def to_snake_case(name):
    s1 = re.sub('(.)([A-Z][a-z]+)', r'\1_\2', name)
    s1 = s1.replace(' ','_')
    return re.sub('([a-z0-9])([A-Z])', r'\1_\2', s1).lower()

In [None]:
#Pasamos las columnas al modo snake_case
columns=df_Contract.columns
new_cols=[]
for i in columns:
    i=to_snake_case(i)
    new_cols.append(i)
df_Contract.columns=new_cols
print(df_Contract.columns)

In [None]:
df_Contract.describe()

# Ausentes

In [None]:
df_Contract.isna().sum()

df_Contract['total_charges'].value_counts()

**Evidenciamos que la columna total_charges tiene un valor ' ' que no significa nada por lo cual veremos que impacto tiene.** 

In [None]:
df_Contract[df_Contract['total_charges']==' ']

In [None]:
100*df_Contract[df_Contract['total_charges']==' ']['total_charges'].count()/df_Contract.shape[0]

Dado que estos datos representan solo el 0.1% del total, hemos decidido eliminarlos

In [None]:
df_Contract['total_charges'].replace(' ',np.nan,inplace=True)

In [None]:
df_Contract.dropna(inplace=True)

 # Duplicados

In [None]:
df_Contract.duplicated().sum()

In [None]:
df_Contract['total_charges']=df_Contract['total_charges'].astype('float')

In [None]:
df_Contract.info()

# Personal

In [None]:
df_Personal.head(10)

In [None]:
df_Personal.info()

In [None]:
#Pasamos las columnas al modo snake_case
columns=df_Personal.columns
new_cols=[]
for i in columns:
    i=to_snake_case(i)
    new_cols.append(i)
df_Personal.columns=new_cols
print(df_Personal.columns)

El dataframe contiene información básica de cada cliente y al revisar con el método info, se confirma que todos los datos están completos sin valores faltantes.

In [None]:
df_Personal.describe()

In [None]:
df_Personal['senior_citizen'].value_counts()

# Ausentes

In [None]:
df_Personal.isna().sum()

 # Duplicados

In [None]:
df_Personal.duplicated().sum()

**El conjunto de datos parece estar completo, sin valores faltantes ni duplicados aparentes.**

 # Internet

In [None]:
df_Internet.head(10)

In [None]:
df_Internet.info()

In [None]:
#Pasamos las columnas al modo snake_case
columns=df_Internet.columns
new_cols=[]
for i in columns:
    i=to_snake_case(i)
    new_cols.append(i)
df_Internet.columns=new_cols
print(df_Internet.columns)

In [None]:
df_Internet.describe()

In [None]:
df_Internet.isna().sum()

# Duplicados

In [None]:
df_Internet.duplicated().sum()

# Phone

In [None]:
df_Phone.head(10)

In [None]:
df_Phone.info()

In [None]:
#Pasamos las columnas al modo snake_case
columns=df_Phone.columns
new_cols=[]
for i in columns:
    i=to_snake_case(i)
    new_cols.append(i)
df_Phone.columns=new_cols
print(df_Phone.columns)

In [None]:
df_Phone.describe()

# Ausentes

In [None]:
df_Phone.isna().sum()

# Duplicados

In [None]:
df_Phone.duplicated().sum()

**En conclusión de los 4 datasets, están sin ausentes o duplicados, y tienen información binaria acerca de a las características que el usuario tiene en el servicio de internet y telefonía, asi como las caracteristicas del contrato, medios de pago, envío de factura y caracteristicas de los clientes.**


# Análisis exploratorio de datos (EDA)

In [None]:
df_Contract.head()

# ¿Que tipo de contrato es el que más escogen los clientes?

In [None]:
df_type=df_Contract.groupby(['type'])['customer_id'].count()
df_type.plot(kind='bar')
plt.show()


En general podemos ver que más personas optan por el contrato mes a mes, seguido del contrato de dos años y el contrato de un año.

In [None]:
df_paperless=df_Contract.groupby(['paperless_billing'])['customer_id'].count()
df_paperless.plot(kind='bar')
plt.show()

La mayoría de personas prefieren recibir su factura electrónica.

In [None]:
df_method=df_Contract.groupby(['payment_method'])['customer_id'].count()
df_method=df_method.sort_values(ascending=False)
df_method.plot(kind='bar')
plt.show()

Los clientes prefieren el pago electronico, seguido por el cheque por correo, transferencia bancaria y tarjeta de crédito (autopago).

In [None]:
df_type=df_Contract.groupby(['type'])['monthly_charges'].sum()
df_type.plot(kind='bar')
plt.show()

Podemos ver que los que más cargos tienen son los que tienen contrato més a més,seguido del que tiene contrato de dos años. y el que tiene contrato de un año.

## Análisis Personal

In [None]:
df_Personal.head(10)

In [None]:
df_gender=df_Personal.groupby(['gender'])['customer_id'].count()
df_gender.plot(kind='bar')
plt.show()

 Los clientes están balanceados, más hombres que mujeres, sin embargo, casi la misma cantidad.

In [None]:
df_senior=df_Personal.groupby(['senior_citizen'])['customer_id'].count()
df_senior.plot(kind='bar')
plt.show()

La mayoría de los clientes no son adultos mayores.

## Análisis Internet

In [None]:
df_Internet.head(10)

# ¿Cual es el servicio de internet más demandado?

In [None]:
df_service=df_Internet.groupby(['internet_service'])['customer_id'].count()
df_service.plot(kind='bar')
plt.show()

La mayoría de los clientes utiliza fibra obtica.

In [None]:
df_security=df_Internet.groupby(['online_security'])['customer_id'].count()
df_security.plot(kind='bar')
plt.show()

La mayoría de clientes opta por no tener seguridad.

In [None]:
df_backup=df_Internet.groupby(['online_backup'])['customer_id'].count()
df_backup.plot(kind='bar')
plt.show()

La mayoría de clientes prefiere no tener respaldo de información.

In [None]:
df_support=df_Internet.groupby(['tech_support'])['customer_id'].count()
df_support.plot(kind='bar')
plt.show()

La mayoría de clientes prefiere no tener soporte técnico

In [None]:
df_dev_prot=df_Internet.groupby(['device_protection'])['customer_id'].count()
df_dev_prot.plot(kind='bar')
plt.show()

La mayoría de clientes prefiere no tener protección de su dispositivo.

In [None]:
df_streaming_tv=df_Internet.groupby(['streaming_tv'])['customer_id'].count()
df_streaming_tv.plot(kind='bar')
plt.show()

Aunque los clientes prefieren no tener televisión, los clientes que si lo prefieren se acercan a las que no, por lo cual está balanceado este servicio.

In [None]:
df_streaming_movies=df_Internet.groupby(['streaming_movies'])['customer_id'].count()
df_streaming_movies.plot(kind='bar')
plt.show()

Aunque los clientes prefieren no tener peliculas, los clientes que si lo prefieren se acercan a las que no, por lo cual está balanceado este servicio.

In [None]:
# Análisis Linea

In [None]:
df_Phone.head()

In [None]:
df_multiple=df_Phone.groupby(['multiple_lines'])['customer_id'].count()
df_multiple.plot(kind='bar')
plt.show()

La mayoría de usuarios no tienen múltiples líneas asociadas en el dataset.

**Con el objetivo de simplificar el análisis, consolidaremos todos los conjuntos de datos en uno único.**

In [None]:
data=df_Contract.merge(df_Personal.merge(df_Phone.merge(df_Internet,how='left'),how='left'),how='left')

In [None]:
data.head(10)

In [None]:
data.info()

In [None]:
for item in ['multiple_lines','internet_service','online_security','online_backup',
             'device_protection','tech_support','streaming_tv','streaming_movies']:
    data[item] = data[item].fillna('No')

# ¿Cuales son los medios de pago más utilizados?

In [None]:
df_payment_method = data.groupby(['payment_method', 'senior_citizen'], as_index=False)['customer_id'].count()
df_payment_method.sort_values(by='customer_id', ascending=False, inplace=True)

plt.figure(figsize=(10, 6))  # Adjust size as needed
sns.barplot(data=df_payment_method, x='customer_id', y='payment_method', hue='senior_citizen', orient='h')

plt.title('Count of Customers by Payment Method and Senior Citizen Status')
plt.xlabel('Number of Customers')
plt.ylabel('Payment Method')
plt.show()

Independientemente de si los usuarios son adultos mayores o no, el método de pago más utilizado es el cheque electrónico, seguido por transferencia bancaria, tarjeta de crédito (autopago) y cheque por correo.

# ¿Que tipo de factura prefieren los usuarios?

In [None]:
# Assuming 'data' is your DataFrame
df_paperless_billing = data.groupby(['paperless_billing', 'senior_citizen'], as_index=False)['customer_id'].count()
df_paperless_billing.sort_values(by='customer_id', ascending=False, inplace=True)

# Plotting using seaborn
plt.figure(figsize=(10, 6))  # Adjust size as needed
sns.barplot(data=df_paperless_billing, x='customer_id', y='paperless_billing', hue='senior_citizen', orient='h')

plt.title('Count of Customers by Paperless Billing and Senior Citizen Status')
plt.xlabel('Number of Customers')
plt.ylabel('Paperless Billing')
plt.show()

# ¿Que tipo de contrato prefieren las personas que tienen personas a cargo?

In [None]:
# Assuming 'data' is your DataFrame
df_total_charges = data.groupby(['type', 'dependents'], as_index=False)['total_charges'].sum()
df_total_charges.sort_values(by='total_charges', ascending=False, inplace=True)

# Plotting using seaborn
plt.figure(figsize=(10, 6))  # Adjust size as needed
sns.barplot(data=df_total_charges, x='total_charges', y='type', hue='dependents', orient='h')

plt.title('Total Charges by Customer Type and Dependents')
plt.xlabel('Total Charges')
plt.ylabel('Customer Type')
plt.show()

La mayoría de los clientes tienen más cargos y no tienen personas dependientes de ellos, además podemos ver que las personas que pagan mes a mes tienen más cargos

In [None]:
# Assuming 'data' is your DataFrame
df_internet_service_1 = data.groupby(['internet_service', 'online_security'], as_index=False)['total_charges'].sum()
df_internet_service_1.sort_values(by='total_charges', ascending=False, inplace=True)

# Plotting using seaborn
plt.figure(figsize=(10, 6))  # Adjust size as needed
sns.barplot(data=df_internet_service_1, x='total_charges', y='internet_service', hue='online_security', orient='h')

plt.title('Total Charges by Internet Service and Online Security')
plt.xlabel('Total Charges')
plt.ylabel('Internet Service')
plt.show()

Se puede apreciar que los que tienen fibra obtica y no tiene seguridad online pagan más que los que si la tienen.

In [None]:
# Assuming 'data' is your DataFrame
df_internet_service_1 = data.groupby(['internet_service', 'online_security'], as_index=False)['customer_id'].count()
df_internet_service_1.sort_values(by='customer_id', ascending=False, inplace=True)

# Plotting using seaborn
plt.figure(figsize=(10, 6))  # Adjust size as needed
sns.barplot(data=df_internet_service_1, x='customer_id', y='internet_service', hue='online_security', orient='h')

plt.title('Count of Customers by Internet Service and Online Security')
plt.xlabel('Number of Customers')
plt.ylabel('Internet Service')
plt.show()

Se puede confirmar que los usuarios que utilizan el servicio DSL tienden a preferir tener seguridad en línea en comparación con no tenerla. Por otro lado, aquellos que tienen fibra óptica tienden a optar por no tener seguridad en línea y además enfrentan cargos más altos que los usuarios de DSL.

In [None]:
def cancel(data):
    if data=='No':
        return '0'
    else:
        return '1'

In [None]:
#Creamos la columna cancel para etiquetar los datos
data['cancel']=data['end_date'].apply(cancel)
data.head(5)

In [None]:
data['end_date'].value_counts()

# ¿Cual es la tasa de cancelación y que caracteristicas tienen los usuarios que cancelan y los que no?

In [None]:
print('Tasa de cancelación: ',100*data[data['cancel']=='1']['customer_id'].count()/data.shape[0])

In [None]:
data_cancel_rate=data.groupby(['cancel'])['customer_id'].count()
data_cancel_rate.plot(kind='bar')
plt.show()

Observamos que la tasa de cancelación es del 32%, lo cual es significativamente alto considerando un periodo de solo 4 meses. A continuación, examinaremos en detalle las características del plan de los clientes que cancelaron y de los que no cancelaron para entender mejor este fenómeno.


In [None]:
data_cancel_rate=data.groupby(['cancel'])['customer_id'].count()
data_cancel_rate.plot(kind='bar')
plt.show()

In [None]:
df_internet_service_2 = data.groupby(['internet_service', 'cancel'], as_index=False)['customer_id'].count()
df_internet_service_2.sort_values(by='cancel', ascending=False, inplace=True)

# Plotting using seaborn
plt.figure(figsize=(10, 6))  # Adjust size as needed
sns.barplot(data=df_internet_service_2, x='customer_id', y='internet_service', hue='cancel', orient='h')

plt.title('Count of Customers by Internet Service and Cancellation')
plt.xlabel('Number of Customers')
plt.ylabel('Internet Service')
plt.show()

Tanto los clientes que cancelan como los que no cancelan muestran una tendencia similar hacia la preferencia por la fibra óptica en lugar de DSL.


In [None]:
df_payment_type = data.groupby(['type', 'cancel'], as_index=False)['customer_id'].count()
df_payment_type.sort_values(by='cancel', ascending=False, inplace=True)

# Plotting using seaborn
plt.figure(figsize=(10, 6))  # Adjust size as needed
sns.barplot(data=df_payment_type, x='customer_id', y='type', hue='cancel', orient='h')

plt.title('Count of customers by type and cancel')
plt.xlabel('number of customers')
plt.ylabel('payment type')
plt.show()

In [None]:
df_expenses = data.groupby(['type', 'cancel'], as_index=False)['total_charges'].sum()
df_expenses.sort_values(by='cancel', ascending=False, inplace=True)

# Plotting using seaborn
plt.figure(figsize=(10, 6))  # Adjust size as needed
sns.barplot(data=df_expenses, x='total_charges', y='type', hue='cancel', orient='h')

plt.title('Type and Cancel')
plt.xlabel('Total Charges')
plt.ylabel('Type')
plt.show()

Podemos ver que los que cancelan gastan más en los planes mes a mes, lo que tiene complementa el anterior análisis.

In [None]:
data.columns

In [None]:
df_multiline = data.groupby(['cancel', 'multiple_lines'], as_index=False)['customer_id'].count()

# Sort by 'cancel' in descending order (optional, based on your preference)
df_multiline.sort_values(by='cancel', ascending=False, inplace=True)

# Plotting using seaborn
plt.figure(figsize=(10, 6))  # Adjust size as needed
sns.barplot(data=df_multiline, x='customer_id', y='cancel', hue='multiple_lines', orient='h')

plt.title('Count of Customers by Cancel and Multiple Lines')
plt.xlabel('Number of Customers')
plt.ylabel('Cancellation Status')
plt.show()

Los usuarios que tienen múltiples líneas tienden a cancelar más frecuentemente en comparación con aquellos que no las tienen, sugiriendo que este servicio podría estar siendo menos atendido.

In [None]:
df_p_method = data.groupby(['payment_method', 'cancel'], as_index=False)['customer_id'].count()

# Convert payment_method to categorical (optional but recommended for categorical data)
df_p_method['payment_method'] = pd.Categorical(df_p_method['payment_method'])

# Plotting with seaborn barplot
sns.barplot(data=df_p_method, x='customer_id', y='payment_method', hue='cancel', orient='h')

# Adding labels and title
plt.xlabel('Number of Customers')
plt.ylabel('Payment Method')
plt.title('Customer Count by Payment Method and Cancellation')
plt.show()

In [None]:
df_multiline.sort_values(by='customer_id', ascending=False, inplace=True)

# Plotting using seaborn
plt.figure(figsize=(10, 6))  # Adjust size as needed
sns.barplot(data=df_multiline, x='customer_id', y='cancel', hue='multiple_lines', orient='h')

plt.title('Count of Customers by Cancellation Status and Multiple Lines')
plt.xlabel('Number of Customers')
plt.ylabel('Cancellation Status')
plt.show()

La mayoría de los clientes que deciden cancelar prefieren utilizar el método de pago mediante cheque electrónico.

In [None]:
def pop_service(data,columns):
    list=[]
    for column in data[columns]:
        percentage=100*data[data[column]=='Yes']['customer_id'].count()/data.shape[0]
        list.append(percentage)
    pop_services={'Servicio':columns,'percentage':list}    
    df_pop_services=pd.DataFrame(pop_services)
    return df_pop_services

In [None]:
columns=['online_security', 'online_backup', 'device_protection', 'tech_support',
       'streaming_tv', 'streaming_movies', 'multiple_lines']
df_pop_services=pop_service(data,columns)
df_pop_services.sort_values(by='percentage',ascending=False,inplace=True)
df_pop_services.plot(kind='bar',x='Servicio',y='percentage')
plt.show()

Se observa que el servicio más demandado es el de múltiples líneas, seguido por películas, televisión y respaldo en línea.

In [None]:
def pop_service_1(data,columns):
    list_0=[]
    list_1=[]
    for column in data[columns]:
        percentage_1=100*data[(data[column]=='Yes')&(data['cancel']=='1')]['customer_id'].count()/data.shape[0]
        percentage_0=100*data[(data[column]=='Yes')&(data['cancel']=='0')]['customer_id'].count()/data.shape[0]
        list_1.append(percentage_1)
        list_0.append(percentage_0)
    pop_services={'Servicio':columns,'percentage_0':list_0,'percentage_1':list_1}    
    df_pop_services=pd.DataFrame(pop_services)
    return df_pop_services

In [None]:
columns=['online_security', 'online_backup', 'device_protection', 'tech_support',
       'streaming_tv', 'streaming_movies', 'multiple_lines']
df_pop_services_1=pop_service_1(data,columns)
df_pop_services_1.sort_values(by='percentage_0',ascending=False,inplace=True)
df_pop_services_1.plot(kind='bar',x='Servicio',y=['percentage_0','percentage_1'])
plt.show()

Basándonos en la última pregunta, podemos concluir que la mayoría de los usuarios que deciden cancelar tienen contratos mensuales, optan por el pago mediante cheque electrónico, utilizan servicios de internet de fibra óptica y son frecuentes usuarios de servicios como múltiples líneas, películas, televisión y protección de dispositivos. La tasa de cancelación alcanza el 32%.

# Plan de trabajo

1.- Segmentar los datos

2.- Balanceo de datos

3.- Separación de datos de entrenamiento, validación y testeo

4.- Entrenamiento de modelo de clasificación

5.- Testeo del modelo de clasificación

Primero debemos filtrar los datos por el tipo de contrato de más frecuente entre los que van a cancelar, en este caso el de 'mes a mes', posteriormente realizamos todo el proceso de entrenamiento del modelo de entrenamiento que nos permita clasificar a los clientes que puedan cancelar.

Para realizar el algoritmo debemos balancear los datos, debido a que el 32% de los datos son clientes que cancelan, posteriormente entrenaremos y probaremos varios algoritmos de clasificación con potenciación del gradiente para obtener una exactitud y calidad del modelo alta. Posteriormente probaremos el mejor modelo con los datos de testeo para determinar la tasa de cancelación.

# Solucion

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE
from catboost import CatBoostClassifier
from lightgbm import LGBMClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import (f1_score,accuracy_score,roc_auc_score)
from sklearn.feature_selection import SelectFromModel
#from sklearn.pipeline import Pipeline
from scipy.stats import randint as sp_randint
from scipy.stats import uniform
import joblib

In [None]:
data.head()
data['cancel']=pd.to_numeric(data['cancel'])

# Codificamos nuestros datos categoricos

In [None]:
data_model=data.drop(['customer_id','begin_date','end_date'],axis=1)

In [None]:
def binary_categories(data):
    if data=='Yes' or data=='Male':
        return 1
    else:
        return 0

In [None]:
binary_columns=['gender','partner', 'dependents','paperless_billing', 'internet_service', 'online_security', 'online_backup',
       'device_protection', 'tech_support', 'streaming_tv', 'streaming_movies',
       'multiple_lines']
for column in binary_columns:
       data_model[column]=data_model[column].apply(binary_categories)

In [None]:
one_hot=pd.get_dummies(data_model[['type','payment_method']])
data_model = pd.concat([data_model, one_hot], axis=1).drop(columns=['type','payment_method'])

# Separamos los datos de entrenamiento, validación y testeo

In [None]:
seed=12345
data_train,data_test=train_test_split(data_model,random_state=seed,test_size=0.3)

In [None]:
features=data_train.drop(['cancel'],axis=1)
target=data_train['cancel']
features_train,features_valid,target_train,target_valid=train_test_split(features,target,random_state=seed,test_size=0.3)

In [None]:
features_train.head(5)

# Escalamos los datos

In [None]:
#Vamos a escalar las características para que nuestro modelo pueda tomar estas variables
numeric=['monthly_charges','total_charges']
scaler=StandardScaler()
scaler.fit(features_train[numeric])
features_train[numeric]=scaler.transform(features_train[numeric])
features_valid[numeric]=scaler.transform(features_valid[numeric])

# Balanceamos los datos

In [None]:
smote = SMOTE(random_state=seed)
features_train_resampled, target_train_resampled = smote.fit_resample(features_train, target_train)

# Entrenamos los modelos

# RandomForest

In [None]:
# 5. Cálculo de medias y desviaciones estándar
train_scores_mean = train_scores.mean(axis=1)
train_scores_std = train_scores.std(axis=1)
test_scores_mean = test_scores.mean(axis=1)
test_scores_std = test_scores.std(axis=1)

In [None]:
params_rf={'max_depth':[3,4,2,1],
         'min_samples_split':[5,10,11,12],
         'n_estimators':[10,20,30,40],
         'min_samples_leaf':[1, 2, 4],
         'bootstrap':[True, False]}

In [None]:
model_rf=RandomForestClassifier()
selector_rf = SelectFromModel(estimator=model_rf, threshold='mean')
selector_rf.fit(features_train_resampled,target_train_resampled)
selected_features_rf = features_train_resampled.columns[selector_rf.get_support()].tolist()
print("Características seleccionadas:", selected_features_rf)

In [None]:
rs=RandomizedSearchCV(estimator=model_rf,param_distributions=params_rf,scoring='f1',cv=2,random_state=seed)
rs.fit(features_train_resampled[selected_features_rf],target_train_resampled)

In [None]:
best_random_rf = rs.best_estimator_
random_prediction = best_random_rf.predict(features_valid[selected_features_rf])
random_accuracy=accuracy_score(target_valid,random_prediction)
random_f1_score=f1_score(target_valid,random_prediction)
random_roc_auc=roc_auc_score(target_valid,random_prediction)
print("Accuracy:",random_accuracy)
print('f1: ',random_f1_score)
print('ROC_AUC: ',random_roc_auc)

In [None]:
# Check if 'models/' directory exists, if not, create it
if not os.path.exists('models'):
    os.makedirs('models')

# Now save your model
joblib.dump(best_random_rf, 'models/best_random_rf.joblib')

# LGBM Classifier

In [None]:
param_dist = {
    'n_estimators': sp_randint(50, 200),
    'max_depth': sp_randint(3, 10),
    'learning_rate': [0.01, 0.05, 0.1, 0.2, 0.3],
    'subsample': [0.6, 0.7, 0.8, 0.9, 1.0],
    'colsample_bytree': [0.6, 0.7, 0.8, 0.9, 1.0],
    'reg_alpha': [0.0, 0.1, 0.5, 1.0],
    'reg_lambda': [0.0, 0.1, 0.5, 1.0],
    'min_child_samples': sp_randint(10, 50)
}

In [None]:
model_lb=LGBMClassifier()
selector_lb = SelectFromModel(estimator=model_lb, threshold='mean')
selector_lb.fit(features_train_resampled,target_train_resampled)
selected_features_lb = features_train_resampled.columns[selector_lb.get_support()].tolist()
print("Características seleccionadas:", selected_features_lb)

In [None]:
lb=RandomizedSearchCV(estimator=model_lb,param_distributions=param_dist,scoring='f1',cv=2,random_state=seed)
lb.fit(features_train_resampled[selected_features_lb],target_train_resampled)

In [None]:
best_random_lb = lb.best_estimator_
random_prediction = best_random_lb.predict(features_valid[selected_features_lb])
random_accuracy=accuracy_score(target_valid,random_prediction)
random_f1_score=f1_score(target_valid,random_prediction)
random_roc_auc=roc_auc_score(target_valid,random_prediction)
print("Accuracy:",random_accuracy)
print('f1: ',random_f1_score)
print('ROC_AUC: ',random_roc_auc)

joblib.dump(best_random_lb,'models/best_random_lb.joblib')

# Catboost

In [None]:
param_dist = {
    'iterations': sp_randint(50, 200),
    'learning_rate': [0.01, 0.05, 0.1, 0.2, 0.3],
    'depth': sp_randint(3, 10),
    'l2_leaf_reg': [1, 3, 5, 7, 9],
    'border_count': sp_randint(32, 255)
}

In [None]:
model_cat=CatBoostClassifier()
selector_cat = SelectFromModel(estimator=model_cat, threshold='mean')
selector_cat.fit(features_train_resampled,target_train_resampled)
selected_features_cat = features_train_resampled.columns[selector_cat.get_support()].tolist()
print("Características seleccionadas:", selected_features_cat)

In [None]:
best_random_cat = cat.best_estimator_
random_prediction = best_random_cat.predict(features_valid[selected_features_cat])
random_accuracy=accuracy_score(target_valid,random_prediction)
random_f1_score=f1_score(target_valid,random_prediction)
random_roc_auc=roc_auc_score(target_valid,random_prediction)
print("Accuracy:",random_accuracy)
print('f1: ',random_f1_score)
print('ROC_AUC: ',random_roc_auc)

In [None]:
joblib.dump(best_random_cat,'models/best_random_cat.joblib')

# Logistic Regression

In [None]:
param_grid = {
    'C': uniform(loc=0, scale=4),  # Regularization parameter C
    'penalty': ['l1', 'l2'],      # Penalty (l1 for Lasso, l2 for Ridge)
    'solver': ['liblinear']       # Solver for logistic regression
}

In [None]:
model_lr=LogisticRegression()
selector_lr = SelectFromModel(estimator=model_lr, threshold='mean')
selector_lr.fit(features_train_resampled,target_train_resampled)
selected_features_lr = features_train_resampled.columns[selector_lr.get_support()].tolist()
print("Características seleccionadas:", selected_features_lr)

In [None]:
lr=RandomizedSearchCV(estimator=model_lr,param_distributions=param_grid,scoring='f1',cv=2,random_state=seed)
lr.fit(features_train_resampled[selected_features_lr],target_train_resampled)

In [None]:
best_random_lr = lr.best_estimator_
random_prediction = best_random_lr.predict(features_valid[selected_features_lr])
random_accuracy=accuracy_score(target_valid,random_prediction)
random_f1_score=f1_score(target_valid,random_prediction)
random_roc_auc=roc_auc_score(target_valid,random_prediction)
print("Accuracy:",random_accuracy)
print('f1: ',random_f1_score)
print('ROC_AUC: ',random_roc_auc)

In [None]:
joblib.dump(best_random_lr,'models/best_random_lr.joblib')

El modelo que tiene mejor métrica ROC_AUC es el de Logistic_Regression, debido a esto se probará primero

# Se prueban los datos

In [None]:
features_test=data_test.drop(['cancel'],axis=1)
target_test=data_test['cancel']

# Se escalan los datos

In [None]:
features_test[numeric]=scaler.transform(features_test[numeric])

# Logistic Regression

In [None]:
prediction_lr=best_random_lr.predict(features_test[selected_features_lr])
random_accuracy=accuracy_score(target_test,prediction_lr)
random_f1_score=f1_score(target_test,prediction_lr)
random_roc_auc=roc_auc_score(target_test,prediction_lr)
print("Accuracy:",random_accuracy)
print('f1: ',random_f1_score)
print('ROC_AUC: ',random_roc_auc)

In [None]:
print(best_random_lr)

# Gradient Boosting

In [None]:
# Definir el espacio de búsqueda de hiperparámetros para Gradient Boosting
params_gb = {
    'learning_rate': [0.01, 0.05, 0.1, 0.2, 0.3],  # Tasa de aprendizaje
    'n_estimators': [50, 100, 150, 200, 250],      # Número de estimadores
    'max_depth': [3, 4, 5, 6, 7, 8, 9, 10],         # Profundidad máxima del árbol
    'min_samples_split': [2, 5, 10],                # Número mínimo de muestras requeridas para dividir un nodo interno
    'min_samples_leaf': [1, 2, 4],                  # Número mínimo de muestras requeridas para ser una hoja
    'subsample': [0.6, 0.7, 0.8, 0.9, 1.0],         # Muestra la fracción de las muestras utilizadas para el ajuste de cada árbol
    'max_features': ['sqrt', 'log2', None]          # Número de características a considerar en cada split
    }

In [None]:
# Inicializar el modelo Gradient Boosting
model_gb = GradientBoostingClassifier(random_state=seed)

# Selección de características utilizando SelectFromModel
selector_gb = SelectFromModel(estimator=model_gb, threshold='mean')
selector_gb.fit(features_train_resampled, target_train_resampled)
selected_features_gb = features_train_resampled.columns[selector_gb.get_support()].tolist()
print("Características seleccionadas:", selected_features_gb)

# Búsqueda Aleatoria de Hiperparámetros

Realizaremos una búsqueda aleatoria de hiperparámetros para encontrar la configuración óptima para el modelo Gradient Boosting.

In [None]:
# Búsqueda aleatoria de hiperparámetros para Gradient Boosting
rs_gb = RandomizedSearchCV(estimator=model_gb, param_distributions=params_gb, scoring='roc_auc', cv=2, random_state=seed)
rs_gb.fit(features_train_resampled[selected_features_gb], target_train_resampled)

# Obtener el mejor modelo encontrado por RandomizedSearchCV para Gradient Boosting
best_random_gb = rs_gb.best_estimator_
print(best_random_gb)

# Guardar el mejor modelo encontrado
joblib.dump(best_random_gb, 'models/best_random_gb.joblib')

# Evaluación y Comparación con Logistic Regression

Evaluaremos el modelo Gradient Boosting en el conjunto de prueba y compararemos las métricas con las obtenidas por Logistic Regression.

In [None]:
# Predecir con el mejor modelo Gradient Boosting en el conjunto de prueba
prediction_gb = best_random_gb.predict(features_test[selected_features_gb])

In [None]:
# Calcular métricas de evaluación para Gradient Boosting
gb_accuracy = accuracy_score(target_test, prediction_gb)
gb_f1_score = f1_score(target_test, prediction_gb)
gb_roc_auc = roc_auc_score(target_test, prediction_gb)

In [None]:
# Imprimir métricas para Gradient Boosting
print("Gradient Boosting Metrics:")
print("Accuracy:", gb_accuracy)
print("F1 Score:", gb_f1_score)
print("ROC AUC Score:", gb_roc_auc)

In [None]:
# Imprimir métricas para Logistic Regression (best_random_lr)
print("\nLogistic Regression Metrics:")
print("Accuracy:", random_accuracy)
print("F1 Score:", random_f1_score)
print("ROC AUC Score:", random_roc_auc)

# Conclusiones del Análisis de Modelos 

El código implementado realiza un análisis exploratorio detallado y preprocesamiento robusto de datos. Utiliza múltiples modelos de aprendizaje automático como RandomForest, LGBM, Logistic Regression y Gradient Boosting, optimizando hiperparámetros con RandomizedSearchCV. Evalúa el rendimiento con métricas clave como precisión, F1 y ROC AUC para predecir el abandono del servicio. Los mejores modelos se guardan para futuros análisis, demostrando un enfoque estructurado y efectivo para cumplir con los requisitos del proyecto y lograr objetivos de puntuación de historia.

## Mejor Modelo de Clasificación: Regresión Logística

Tras realizar un análisis exhaustivo de varios modelos de Machine Learning, se encontró que *la Regresión Logística con los parámetros C=0.033 y solver='liblinear' fue el que mejor se ajustó a nuestros datos para clasificar las personas que cancelan.*

Rendimiento del Mejor Modelo

La Regresión Logística logró una métrica ROC AUC de 0.75 y una exactitud (accuracy) de 0.74 en el conjunto de prueba. Estas métricas indican que el modelo tiene una buena capacidad para distinguir entre las clases positiva y negativa.
Comparación con Otros Modelos

Gradient Boosting: Aunque ofreció un rendimiento sólido con una métrica ROC AUC de 0.76 y una exactitud de 0.74, la Regresión Logística se mostró mejor en términos de ROC AUC y exactitud.

LGM Classifier: Mostró una exactitud de 0.73, un F1-score de 0.60 y un ROC AUC de 0.74, siendo una opción competitiva pero ligeramente inferior a Random Forest en términos de ROC AUC.
