# Informe de solución
---
### Descripción del objetivo

Al operador de telecomunicaciones Interconnect le gustaría poder pronosticar su tasa de cancelación de clientes con la finalidad de poder crear una estrategia de retención mediante descuentos y promociones.

Sus principales servicios son:
- Telefonía fija.
- Internet por línea telefónica o fibra óptica.

**Objetivo principal**: Crear un modelo predictivo de **clasificación** que arroje que clientes podrían cancelar sus servicios.  
(El cliente 'x' va a cancelar?, sí (1) o no (0)?)

## Pasos que se realizaron

1- Realizamos el preprocesamiento y análisis exploratotio de datos.   

    Parte 1:
* 1.1.1 Examinación y estudio de datos.  
* 1.1.2 Unificación de los datasets (4) mediante columna en común ('customerID').  
* 1.1.3 Limpiamos y formateamos el dataset unificado mediante una función (minúsculas y reemplazo de guiones).  
* 1.1.4 Enriquecimos datasets con nuevas columnas ('loyalty_months').     
* 1.1.5 Eiminamos columnas irrelevantes.
* 1.1.6 Reordenamos, columnas y tratamos filas duplicadas y valores ausentes.
* 1.1.7 Cambiamos tipo de datos (object-datetime, object-int).  

Parte 2:
* 1.2.1 Estudiamos estadísticas descriptivas de todas las columnas.
* 1.2.2 Graficamos la distribución de las características numéricas y presentamos con porcentajes la distribución de las características categóricas y binarias.
* 1.2.3 Investigamos si existían 'outliers' en las características.
* 1.2.4 Identificamos correlaciones y patrones de la variable objetivo con las características.
* 1.2.5 Descrubimos la existencia de un desbalance de clases en la variable objetivo.
* 1.2.6 Contestamos hipótesis (el primero con cálculos matemáticos y el segundo con prueba estadística).


2- Preparación y entrenamiento del modelo (clasificación).

* 2.1 Creamos función 'upsample' para el desbalance de clases.
* 2.2 Dividimos el dataset 2 veces, el primero sin modificar y el segundo con 'One-hot encoding'. Ambas divisiones fueron distribuidas de la siguiente manera: entrenamiento (60%), validación (20%) y prueba (20%).
* 2.3 Entrenamos modelo dummy como prueba de cordura.
* 2.4 Entrenamos modelos de regresión logística, árbol de decisión, bosque aleatorio y light gbm.


3- Prueba de los modelos y elección del mejor
* 3.1 Probamos los mejores modelos (regresión logística y light gbm).
* 3.2 Mostramos resultados de métricas de ambos modelos.
* 3.3 Elegimos el más eficiente y concluimos eleccón.


4- Conclusiones del proyecto.
* 4.1 Consluimos con la explicación de las métricas del modelo y con el objetivo del proyecto alcanzado.

**Nota**: Todos los pasos fueron del plan de trabajo fueron realizados, en todo caso se agregaron los siguientes puntos: 1.2.3, 1.2.5, 2.2 y 2.3.

## Dificultades enfrentadas en el proyecto


---
**1.1.6** Por la unificación de los datasets se crearon de manera artificial valores ausentes, tuvimos que investigar de donde provenían y decidir como tratarlos, NO se eliminaron ya que correspondían al 21% de todo el dataset. La decisión final fue reeempoplazar los valores ausentes 'Nan' con 'no'. Anexo evidencia:

'Datos totales': 7032  
internet_service     1520  
online_security      1520  
online_backup        1520  
device_protection    1520  
tech_support         1520  
streaming_tv         1520  
streaming_movies     1520  
multiple_lines        680  
dtype: int64  

---

**1.1.7** Modificamos la columna obejtivo 'end_date':
* a) Primero creamos una nueva columna con los meses de lealtad de los clientes 'loyalty_months'.
* b) Después creamos la nueva colulmna objetivo **'cancelation'** de forma binaria 0 para 'no' y 1 para 'si'.
* c) Finalmente reacomodamos columnas para mejor visualización y análisis.
Anexo evidencias:

-Antes de los cambios:

customerID: 7590-VHVEG  
BeginDate:	2020-01-01  
EndDate:    No  
Type:       Month-to-month    

-Después de realizar los cambios:

customer_id: 7590_vhveg  
begin_date: 2020-01-01  
cancelation: 0  
loyalty_months: 1  
monthly_charges: 29.85  
total_charges: 29.85  
payment_method: electronic_check
type: monthly

---

**2.2** Me dí cuenta que era necesario tratar los datos para algunos modelos y para otros no. Por ejemplo todos trabajan con 'one-hot encoding' pero light gbm trabaja con categorías nativas, por lo cual se dividio en conjuntos diferentes. Anexo evidencia:

* Conjuntos sin 'one-hot encoding':

features_train_lgbm = df_train_lgbm.drop(['cancelation'], axis=1)  
target_train_lgbm = df_train_lgbm['cancelation']  
features_valid_lgbm = df_valid_lgbm.drop(['cancelation'], axis=1)  
target_valid_lgbm = df_valid_lgbm['cancelation']  
features_test_lgbm = df_test_lgbm.drop(['cancelation'], axis=1)  
target_test_lgbm = df_test_lgbm['cancelation']  

* Conjuntos con 'one-hot encoding':

df_ohe = pd.get_dummies(df, drop_first=True)

features_train = df_train.drop(['cancelation'], axis=1)  
target_train = df_train['cancelation']  
features_valid = df_valid.drop(['cancelation'], axis=1)  
target_valid = df_valid['cancelation']  
features_test = df_test.drop(['cancelation'], axis=1)  
target_test = df_test['cancelation']  

---

**2.4** Necesite escalar las columnas numéricas para el modelo de regresión logística mediante la creación de una copia 'features' a 'features_sc' para poder aplicar 'StandardScaler()' mejorando las métricas. Anexo evidencia:
  
features_train_sc = features_train.copy()  
features_valid_sc = features_valid.copy()  
features_test_sc = features_test.copy()  

numeric = ['loyalty_months', 'monthly_charges', 'total_charges']  

scaler = StandardScaler()  
scaler.fit(features_train[numeric])  
features_train_sc[numeric] = scaler.transform(features_train_sc[numeric])  
features_valid_sc[numeric] = scaler.transform(features_valid_sc[numeric])  
features_test_sc[numeric] = scaler.transform(features_test_sc[numeric])  


## Pasos clave para resolver el proyecto
 
1- Unificar datasets.  
2- Crear columna target 'cancelation' y característica 'loyalty_months'.  
3- Invrstigación de desbalance de clases.  
4- Creación de función 'upsample' para aplicar el método de sobremuestreo.  
5- Dividir el dataset en dos bloques, el primero para light gbm y el segundo para el resto con 'one-hot'.  
6- Creación de bucles 'for' dentro de los modelos para encontrar los mejores parámetros (repeat, est, etc).  
7- Utilizar la métrica 'Accuracy' aparte de la métrica 'AUC-ROC' para poder elegir el mejor modelo.  


## Modelo elegido

Elegimos el modelo de **Light GBM** por su puntuación en 'Accuracy' y 'F1' más alto que la regresión lineal, aunque la la métrica 'AUC-ROC' es levemente inferior por solo poco más de 1 punto pocentual.  

**- Métricas obtenidas:**  

**AUC-ROC**: 0.8321  
**Accuracy**: 0.7413  
**F1-score**: 0.6136  

**- Explicación de métricas**
- F1 score: El modelo tiene un balance entre precisión y recall con el **61.5%** de efectividad balanceada.  
- Accuracy: Con una puntuación de **74%** el modelo nos dice que acierta en la respuesta correcta 74 veces de cada 100.
- Auc-roc: Se logro una puntuación de **83%**, lo que significa que el modelo tiene 83.0% de probabilidad de distinguir correctamente entre clases.  