## Telco

Usted es el encargado de analítica de una empresa de telefonía celular y tiene que proporcionar soluciones para hacer frente a las problemáticas de un sector que ha llegado a saturación del mercado. Tanto su empresa como sus competidores directos tienen que disputarse por una base de clientes limitada, de tal forma que usted tiene que responder a un objetivo estratégico definido por la dirección así:

“Mantener y fidelizar a nuestros clientes por medio de un servicio de calidad que se adapte a sus necesidades particulares.”

Su compañía dispone de una base de datos histórica de personas que hace un año eran clientes propios. Algunos de esos clientes siguen siéndolo hoy en día, otros ya no lo son. Se han identificado dos proyectos de analítica de datos que permitirán alcanzar tal objetivo, que tendrá que desarrollar en las dos partes siguientes.

## Diccionario de datos

- ESTADO: Describe si el usuario sigue con la compañía (VINCULADO) o no (RETIRADO)
- INGRESOS: Promedio de ingresos del cliente en pesos
- CASA: Precio de la casa en la que vive el cliente en pesos
- PRECIO_DISPOSITIVO: Precio del celular del cliente en pesos
- MESES: Antigüedad del usuario en meses
- DURACION: Promedio de duración de las llamadas hechas por el cliente en minutos
- SOBRECARGO: Promedio de minutos que se sobrepasa el usuario en un mes
- SALDO_RESTANTE: Promedio de minutos de su plan que le quedan al usuario sin utilizar cada mes
- SATISFACCION: nivel de satisfacción del usuario de 0 a 10 (muy satisfecho), obtenido a partir de una encuesta.

In [None]:
import numpy as np #operaciones matriciales y con vectores
import pandas as pd #tratamiento de datos
import matplotlib.pyplot as plt #gráficos
import seaborn as sns
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split #metodo de particionamiento de datasets para evaluación
from sklearn.model_selection import cross_val_score,StratifiedKFold #protocolo de evaluación
from sklearn import datasets, metrics
from sklearn import preprocessing
from sklearn.metrics import confusion_matrix
from sklearn.decomposition import PCA

## Parte 1

### Análisis exploratorio

In [None]:
# Cargamos el archivo csv
data=pd.read_csv("PF-02-DatosTelco.csv", delimiter=",")
data.head()

In [None]:
data.info()

In [None]:
data.describe(include='all').T

In [None]:
data.ESTADO.unique()

### Verificamos si existen valores atípicos en cada columna

In [None]:
plt.figure(figsize=(20, 5))
plt.subplot(241)
plt.boxplot(data["INGRESOS"])
plt.subplot(242)
plt.boxplot(data["CASA"])
plt.subplot(243)
plt.boxplot(data["PRECIO_DISPOSITIVO"])
plt.subplot(244)
plt.boxplot(data["MESES"])
plt.subplot(245)
plt.boxplot(data["DURACION"])
plt.subplot(246)
plt.boxplot(data["SOBRECARGO"])
plt.subplot(247)
plt.boxplot(data["SALDO_RESTANTE"])
plt.subplot(248)
plt.boxplot(data["SATISFACCION"])

### Verificamos si el dataset está balanceado

In [None]:
ax = sns.countplot(x="ESTADO",data=data)

### 1. ¿Encuentra alguna anomalía en los datos?

Si, existen anomalías en los datos. Con base al análisis exploratorio previamente realizado, podemos observar que las columnas CASA, PRECIO_DISPOSITIVO Y MESES tienen registros atípicos los cuales se pueden observar en los diagramas de cajas.

### Limpieza de datos

In [None]:
# Obtenemos los datos de todas las columnas a excepción de la columna ESTADO
independientes = data.iloc[:,1:]
# Obtenemos los promedios de todas las columnas del dataframe independientes
promedios = independientes.mean(axis = 0)
# Obtenemos las desviaciones de todas las columnas del dataframe independientes
desviaciones = independientes.std(axis = 0)
# Obtenemos los encabezados de las columnas del dataframe independientes
columnas = independientes.columns

for i,j,z in zip(columnas,promedios,desviaciones):
    data = data[np.abs(data[i]-j) <= 4*z]
    
plt.figure(figsize=(20, 5))
plt.subplot(241)
plt.boxplot(data["INGRESOS"])
plt.subplot(242)
plt.boxplot(data["CASA"])
plt.subplot(243)
plt.boxplot(data["PRECIO_DISPOSITIVO"])
plt.subplot(244)
plt.boxplot(data["MESES"])
plt.subplot(245)
plt.boxplot(data["DURACION"])
plt.subplot(246)
plt.boxplot(data["SOBRECARGO"])
plt.subplot(247)
plt.boxplot(data["SALDO_RESTANTE"])
plt.subplot(248)
plt.boxplot(data["SATISFACCION"])

### 3. Analice la correlación entre las variables y explique lo que puede implicar desde el punto de vista de PCA

In [None]:
# Matriz de correlación
data.corr()

Como se puede observar en la matriz de correlación, las variables INGRESOS y SALDO_RESTANTE están fuertemente
correlacionas (de forma positiva) al igual que las variables SOBRECARGO y SATISFACCION (también de forma positiva). Para verlo gráficamente hagamos un diagrama de dispersión para cada uno.

In [None]:
# Diagrama de dispersión INGRESO Y SALDO_RESTANTE
x = data.INGRESOS
y = data.SALDO_RESTANTE
fig, ax = plt.subplots()
ax.scatter(x, y, label="INGRESO VS SALDO_RESTANTE")
plt.legend()
plt.show()

In [None]:
# Diagrama de dispersión INGRESO Y SALDO_RESTANTE
x = data.SOBRECARGO
y = data.SATISFACCION
fig, ax = plt.subplots()
ax.scatter(x, y, label="SOBRECARGO VS SATISFACCION")
plt.legend()
plt.show()

Lo que significa desde el punto de vista de PCA es...

### 4. Debe entrenar 3 tipos de modelos predictivos de diferentes familias

#### 4.1 Defina el protocolo de evaluación que va a utilizar para calibrar los modelos y estimar la calidad del modelo final
El protocolo de evaluación que vamos a usar para calibrar los modelos y estimar la calidad del modelo final será K Fold Cross Validation.

#### 4.2 Establezca las métricas que va a utilizar, justificando su escogencia 
Las métricas de evaluación que usaremos son: el kappa el accuracy  
Elegimos estás metricas debido a la naturaleza del problema. El problema al que nos enfrentamos es un problema de clasificación con datos etiquetados (VINCULADO o RETIRADO).

#### 4.3 Establezca las métricas que va a utilizar, justificando su escogencia 
Calibre 3 tipos de modelos diferentes: K-NN, árbol de decisión y algún otro que propongan, utilizando las métricas y protocolo definido. <br>
El modelo tercer modelo que usaremos es Naïve Bayes.

### Modelado

### Modelo de Refencia (Baseline)

In [None]:
ax = sns.countplot(x='ESTADO', data=data)

In [None]:
pd.crosstab(index=data.ESTADO,columns="count").T

In [None]:
print(str(round(11665/(11665+11497) * 100, 2)) + ' %')

Del countplot anterior, podemos observar que nuestro dataset se encuentra balanceado.
Nuestro Baseline es: al cabo de un año, cualquier nuevo cliente se va retirar con un accuracy de **50.36 %**

### K-NN

## Parte 2

Analice los clientes que se han ido, creando un modelo de segmentación de los clientes que desertan la compañía, teniendo en cuenta sus datos socio-demográficos y comportamientos de consumo del servicio de telefonía. Interpretar el perfil de clientes asignado a cada segmento, caracterizándolos de tal manera que le permita sugerir 3 a 5 campañas de fidelización.

1. Definición del número de campañas a realizar (0.6)

2. Extraiga los componentes principales, analice sus niveles de varianza explicada, e interprete los 3 más importantes en función de las variables originales. (0.6)

3. Compare de los clusters obtenidos utilizando K-Means y Clustering jerárquico, seleccionando los resultados de uno de los dos métodos. Justifique. (0.4)

4. Caracterice los clusters, etiquetando el segmento; proponga una estrategia de fidelización para cada uno de los clusters. Justifique (0.6)

In [None]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans, AgglomerativeClustering
from mpl_toolkits.mplot3d import Axes3D
import math

In [None]:
retirados=data[data.ESTADO=="RETIRADO"]
retirados = retirados.drop("ESTADO", axis=1)
retirados.head()

### Componentes principales

primero normalizamos los datos para poder que la escala de los variables no afecten las varianzas.

In [None]:
scaler = StandardScaler(with_mean=True, with_std=True)
scaler.fit(retirados)
retirados_std = scaler.transform(retirados)
print(scaler.mean_)

Ahora determinamos los componentes principales de los datos y posteriormente analizamos las varianzas que las variables representan en cada uno de ellos.

In [None]:
pca = PCA()
df_proyectado = pca.fit_transform(retirados_std)

In [None]:
pca.explained_variance_ratio_

Ahora graficamos la varianza de cada componente para determinar los más relevantes.

In [None]:
var_exp=pca.explained_variance_ratio_ # varianza explicada por cada PC
cum_var_exp = np.cumsum(var_exp)
plt.figure(figsize=(15, 7))
plt.bar(range(len(var_exp)), var_exp, alpha=0.3333, align='center', label='Varianza explicada por cada PC', color = 'g')
plt.step(range(len(cum_var_exp)), cum_var_exp, where='mid',label='Varianza explicada acumulada')
plt.ylabel('Porcentaje de varianza explicada')
plt.xlabel('Componentes principales')
plt.legend(loc='best')
plt.show()

In [None]:
print("Los tres componentes principales más relevantes representan el ",np.sum(pca.explained_variance_ratio_[0:3])*100,"% de la varianza de los datos")

In [None]:
print(pca.components_[0:3])

In [None]:
retirados.columns

<b> Analizando el aporte de cada variable original a cada componente tenemos que:</b>

- PC1: en este componente miramos que las variables que tiene una participación positiva fuerte son <b>ingresos y saldo restante</b>. personas que no alcanzan a gastar el saldo que pagan, lo que podría ser la causa de retirarse.
- PC2: este es caracterizado por tener participacion <b>negativa en sobrecargo y satisfacción</b>, lo que indica que este componente puede representar a los clientes a quienes los planes existentes no se ajustan a sus necesidades. este componente representa la insactisfaccion de los clientes.
- PC3: Este componente tiene una participación <b>positiva de duración y en precio de dispositivo</b>. En esta componente podemos ver reflejados a los clientes quienes usan el servicio para realizar llamadas, es posible que sean empresarios.

### Definición de campañas

Para definir el número de campañas usaremos el metodo del codo para determinar el mejor número de clusters en k-means

In [None]:
df_proyectado = pd.DataFrame(pca.fit_transform(retirados_std)[:,0:3])
df_proyectado.columns=['PC1', 'PC2', 'PC3']
df_proyectado.head()

In [None]:
plt.figure(figsize=(15, 7))

fig = plt.figure(figsize=[10,5])
ax = fig.add_subplot(111, projection='3d')
ax.scatter(df_proyectado["PC1"], df_proyectado["PC2"],df_proyectado["PC3"], c='b', marker='o')

ax.set_xlabel('PC1')
ax.set_ylabel('PC2')
ax.set_zlabel('PC3')

### K-means

In [None]:
def wss_clusters(labels):
    df_jerarquico=pd.DataFrame(labels)
    df_jerarquico.columns=['cluster']
    df_jerarquico[df_proyectado.columns]=df_proyectado
    wss_average=0;
    groups=df_jerarquico.groupby(['cluster'])
    for g in groups:
        wss=wss_func(g[1].iloc[:,1:])
        wss_average+=wss
    return wss_average/len(groups)

def distance(p,q):
    sum=0
    for i in range(len(q)):
        sum+=(p[i]-q[i])*(p[i]-q[i])
    return math.sqrt(sum)
    
def wss_func(df):
        averages=df.mean(axis=0)
        wss=0
        for val in range(len(df)):
            row=df.iloc[val,:]
            d=distance(row,averages)
            wss+=d*d
        return wss
def centros(labels):
    df_jerarquico=pd.DataFrame(labels)
    df_jerarquico.columns=['cluster']
    df_jerarquico[df_proyectado.columns]=df_proyectado
    groups=df_jerarquico.groupby(['cluster'])
    points=pd.DataFrame(columns=df_jerarquico.columns[1:])
    i=0
    for g in groups:
        averages=g[1].iloc[:,1:].mean(axis=0)
        points.loc[i] = averages
        i+=1
    return points
        
        
    

In [None]:
n=range(2,6)
WSSs = []
for i in n :
    km = KMeans(n_clusters=i, random_state=0)
    km.fit(df_proyectado)
    WSSs.append(wss_clusters(km.predict(df_proyectado)))
prop=[]
for i in range(len(n)-1):
    p=(WSSs[i+1]-WSSs[i])/WSSs[i]
    prop.append(p)
print(prop)
plt.plot(n, WSSs)


Siguiendo el metodo del codo para k desde 2 hasta 6 para poder analizar los decrecimientos de wss, el k que maximiza el decrecimiento es k=3, por ello decidimos escoger éste como el número de clusters. <b>Por ello el número de campañas a realizar son 3.

In [None]:
km = KMeans(n_clusters=3, random_state=0)
km.fit(df_proyectado)
clusters_km=km.predict(df_proyectado)
plt.figure(figsize=[15,5])
plt.subplot(131)
plt.scatter(df_proyectado["PC1"], df_proyectado["PC2"], c=clusters_km, s=50, cmap='viridis')
plt.xlabel('PC1:')
plt.ylabel('PC2:')
plt.subplot(132)
plt.scatter(df_proyectado["PC1"], df_proyectado["PC3"], c=clusters_km, s=50, cmap='viridis')
plt.xlabel('PC1:')
plt.ylabel('PC3:')
plt.subplot(133)
plt.scatter(df_proyectado["PC3"], df_proyectado["PC2"], c=clusters_km, s=50, cmap='viridis')
plt.xlabel('PC3:')
plt.ylabel('PC2:')

In [None]:
fig = plt.figure(figsize=[10,5])
ax = fig.add_subplot(111, projection='3d')
ax.scatter(df_proyectado["PC2"], df_proyectado["PC1"],df_proyectado["PC3"], c=clusters_km, marker='o')

ax.set_xlabel('PC2')
ax.set_ylabel('PC1')
ax.set_zlabel('PC3')
clusters_km

### Clusterin Jerarquico

Para la realización del clustering jerarquico tomaremos el mismo número de clusters que en k-means, sin embargo el metodo para fusionar los clusters lo vamos a escoger dependiendo cual de ellos minimice el wss de los clusters

In [None]:
links=['ward','complete','average']
fig = plt.figure(figsize=[20,5])
c=0
wss_list=[]
for link in links:
    c+=1
    clustering = AgglomerativeClustering(linkage=link, n_clusters=3)
    clustering.fit(df_proyectado)
    ax = fig.add_subplot(1,3,c, projection='3d')
    wss_list.append(wss_clusters(clustering.labels_))
    ax.scatter(df_proyectado["PC2"], df_proyectado["PC1"],df_proyectado["PC3"], c=clustering.labels_, marker='o')   
    ax.set_xlabel('PC2')
    ax.set_ylabel('PC1')
    ax.set_zlabel('PC3')
    ax.set_title("Metodo de fusion: "+link)
wss_list

In [None]:
centers = pd.DataFrame(km.cluster_centers_)
o_centers=centros(km.predict(df_proyectado))
print(centers)
print(o_centers)

Para el modelo usando clusterin jerarquico se selecciona un núnero de clusters igual a 3 y el método de fusion ward, debido que es el que tiene un menor wss.

### Comparación de clusters

Para decidir cuál de los dos modelos es el mejor usaremos el criterio del que tenga el wss más bajo.

In [None]:
jerarquico=AgglomerativeClustering(linkage='ward', n_clusters=3)
jerarquico.fit(df_proyectado)
pred_jer=jerarquico.labels_
pred_km=km.predict(df_proyectado)
km = KMeans(n_clusters=3, random_state=0)
km.fit(df_proyectado)
print("El wss para el modelo de k-means es de:",wss_clusters(pred_km))
print("El wss para el modelo de clustering jerarquico es de:",wss_clusters(pred_jer))

In [None]:
acc=metrics.accuracy_score(pred_jer,pred_km)*100
print("Podemos observar que un:",acc,"% de los datos fueron asignados a los mismos clusters en ambos modelos")

Teniendo en cuenta la suma de errores al cuadrado de los puntos al centro de su clusters <b>escogemos el modelo de k-means</b>, debido a que éste es el menor, aunque los clusters de ambos modelos quedaron muy parecidos.

### caracterización

Caracterizamos los clusters para darle la semantica necesaria deacuerdo con los componentes principales, con el fin de dirigir campañas de fidelización efectivas.

In [None]:
clusters=pd.DataFrame(pred_km)
clusters.columns=['cluster']
clusters[df_proyectado.columns]=df_proyectado
centers = pd.DataFrame(km.cluster_centers_)
print(clusters.head())
print(centers)


In [None]:
def graph_cluster(c):
    cluster=clusters[clusters.cluster==c]
    plt.figure(figsize=[15,5])
    plt.subplot(131)
    plt.scatter(cluster["PC1"], cluster["PC2"], c='r', s=50, cmap='viridis')
    plt.scatter(centers.iloc[c,0],centers.iloc[c,1], c='b', s=50, cmap='viridis')
    plt.xlabel('PC1:')
    plt.ylabel('PC2:')
    plt.subplot(132)
    plt.scatter(cluster["PC1"], cluster["PC3"], c='r', s=50, cmap='viridis')
    plt.scatter(centers.iloc[c,0],centers.iloc[c,2], c='b', s=50, cmap='viridis')
    plt.xlabel('PC1:')
    plt.ylabel('PC3:')
    plt.subplot(133)
    plt.scatter(cluster["PC3"], cluster["PC2"], c='r', s=50, cmap='viridis')
    plt.scatter(centers.iloc[c,2],centers.iloc[c,1], c='b', s=50, cmap='viridis')
    plt.xlabel('PC3:')
    plt.ylabel('PC2:')
    cluster1.head()

#### Cluster 1

In [None]:
graph_cluster(0)

En este cluster miramos que los clientes tienden a estar más inclinados a estar en el lado negativo del componente1 y neutrales encuanto a los otros dos. Como el componente 1 tiene ingresos y saldo restantes como las variables más fuertes positivamente, estos clientes son aquellos que tienen bajos ingresos y los minutos no le son suficientes cada mes. Por ello se podria pensar en un nuevo plan que contanga más minutos pero que se eleven los precios en las mismas proporciones.

#### Cluster 2

In [None]:
graph_cluster(1)

Este grupo de clientes se caracteriza por estar en el lado positivo del componente 1, lo que quiere decir que sus ingresos tienden a ser atos y su saldo restante es positivo. Para ellos se puede proponer acumular los minutos para el siguiente mes y al momento de acumular los minutos del plan ese mes no sea cobrado.

#### Cluster 3

In [None]:
graph_cluster(2)

Para este grupo encontramos que los datos estan ubicados en el lado positivo del componente 2, como éste tiene fuerza negativa sobre las variables sobrecargo y satisfacción, estos clientes tienen niveles de sobrecargo y de satisfacción bajos.