# Recolección de datos

Esta parte la puede detallar mejor Jessica

# Preprocesamiento y extracción de características

Una vez que definimos las columnas, o variables, que utilizaremos en la construcción del dataset recurrimos a reglas del negocio para saber como tratar los valores *en blanco* o nulos

In [None]:
''' libraries'''
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from plotnine import *
''' config notebook ''' 
%matplotlib inline

datos = pd.read_csv('CAToperaciones.csv')
datos.dtypes

No tenemos ningun dato nulo :) de ello cuidamos en la RECOLECCIÓN DE LOS DATOS

In [None]:
datos.isnull().values.any() 

In [None]:
del datos['CLAVE_CLIENTE'] # para fines de modelación de momento el i del cliente no se requiere  

Como nuestro objetivo es impulsar la digitalización de la Banca de inversión, excluimos de nuestra muestra a las personas morales por las siguientes:

    - Los clientes de Actinver en su mayoría son personas físicas
    - Las personas morales pueden tener más de una persona que opere sus cuentas por lo que la elección o no de los servicios digitales puede estar comprometida o condicionada por reglas propias de su negocio.



In [None]:
# para excluir a las personas morales, la variable 'GENERO' nos permite identificarlas
print(datos.GENERO.value_counts())
index = datos[ datos['GENERO'] == 'SIN GENERO'].index
datos.drop(index, inplace=True)
datos = datos.reset_index()

# Exploración de los datos

Veamos cómo se distribuyen nuestras variables con relación a variable a predecir, las cuales en su mayoría son categóricas

In [None]:
# colores UP
colores =  np.array(  ['#A4061F', '#CFAB7A', '#00529B'  ])

In [None]:
ggplot(datos, aes(x='ENROLADO' , fill='ENROLADO')) + \
     geom_bar(aes(y = '(..count..)/sum(..count..)')) + \
     theme_minimal() + ylab('%') + scale_fill_manual(colores[0:2])

Notamos que la variable `CVE_UNIDAD_NEGOCIO` es la misma que `UNIDAD_NEGOCIO`, por lo que eliminamos la primera

In [None]:
ggplot(datos, aes(x='CVE_UNIDAD_NEGOCIO' , fill='UNIDAD_NEGOCIO')) + \
     geom_bar(aes(y = '(..count..)/sum(..count..)')) + \
     theme_minimal() + ylab('%') + scale_fill_manual(colores[1:3])

In [None]:
del datos['CVE_UNIDAD_NEGOCIO']

In [None]:
temp = datos['EMISORA_FONDO'].value_counts().index.tolist()[::-1]
print(len(temp))
ggplot(datos) + aes(x='EMISORA_FONDO', y = '(..count..)/sum(..count..)',  fill='ENROLADO')  + geom_bar()  +\
  scale_x_discrete(limits=temp) + ylab('%') + theme_minimal() + \
     theme( legend_position='bottom', figure_size=(12, 16)) + \
     coord_flip() + scale_fill_manual(colores[1:3])
 

In [None]:
temp = datos['DESC_CE_FINANCIERO'].value_counts().index.tolist()[::-1]
temp
ggplot(datos) + aes(x='DESC_CE_FINANCIERO', y = '(..count..)/sum(..count..)',  fill='ENROLADO')  + geom_bar()  +\
  scale_x_discrete(limits=temp) + ylab('%') + theme_minimal() + \
     theme( legend_position='bottom', figure_size=(16, 12)) + \
     coord_flip() + scale_fill_manual(colores[1:3])

Como es común en las variables que reflejan ingresos, la variable`SALDO_CLIENTE` está sesgada positivamente por lo que trabajaremos en lo subsecuente con su logaritmo natural

In [None]:
ggplot(datos, aes(x='SALDO_CLIENTE', fill='ENROLADO', color='ENROLADO')) + geom_density( alpha=0.1) + theme_minimal() +\
scale_fill_manual(colores[[0,2]]) + scale_color_manual(colores[[0,2]]) 

In [None]:
datos['SALDO_CLIENTE'] = np.log(datos['SALDO_CLIENTE'] + 1) # para precision numerica
ggplot(datos, aes(x='SALDO_CLIENTE', fill='ENROLADO', color='ENROLADO')) + geom_density(alpha=0.1 ) + theme_minimal() +\
scale_fill_manual(colores[[0,2]]) + scale_color_manual(colores[[0,2]]) 

In [None]:
datos['TIPO_OPERACION'] =  datos['TIPO_OPERACION'].apply(lambda x : x.strip())
temp = datos['TIPO_OPERACION'].value_counts().index.tolist()[::-1]
ggplot(datos) + aes(x='TIPO_OPERACION', y = '(..count..)/sum(..count..)',  fill='ENROLADO')  + geom_bar()  +\
  scale_x_discrete(limits=temp) + ylab('%') + theme_minimal() + \
     theme(  figure_size=(16, 12)) + \
     coord_flip() + scale_fill_manual(colores[1:3])

In [None]:
ggplot(datos, aes(x='GENERO' , fill='ENROLADO')) + \
     geom_bar(aes(y = '(..count..)/sum(..count..)')) + \
     theme_minimal() + ylab('%') + scale_fill_manual(colores[0:2])

In [None]:
ggplot(datos, aes(x='Edad', fill='ENROLADO', color='ENROLADO')) + geom_density(alpha=0.1 ) + theme_minimal() +\
scale_fill_manual(colores[[0,2]]) + scale_color_manual(colores[[0,2]]) 

# Baseline

Consideremos un escenario base para comparar nuestro modelo final de clasificación que refleje qué clientes tienen mayor probabilidad de utilizar los servicios de banca electrónica (aquí __sí hablamos de intervalos de probabilidad!__, consultar libro pág. 3 sección `1.1.2 Bayesian Inference in Practice`) considerando solo la variable el género del cliente.

Partiendo de que sabemos que la distribución conjugada de una $Beta (\alpha, \beta)$ con una $X\sim Binomial(N,p)$ (en nuestro caso definimos el éxito como que la persona use los servicios electrónicos con probabilidad $p$) es una distribución $Beta(\alpha+X, \beta+N-X)$ (consultar libro pág. 164), generamos el siguiente escenario: 

   - Un enfoque sin información, una distribución uniforme para la proporción de clientes con banca electrónica activa. Por lo que partimos de una distribución a priori $Beta(1,1)$, y obtengamos la probabilidad de que un cliente use los servicios electrónicos. 


In [None]:
empirico = datos.groupby(['ENROLADO', 'GENERO']).size().reset_index(name='counts')
empirico

In [None]:
''' funciones para desplegar resultados'''
#figsize(12,8)
def _hist(data, label, color, **kwargs):
    a = plt.hist(data, bins=80, density=True, histtype='stepfilled', alpha=.7, label=label, **kwargs, color=color)
    return(a)
''' funciones utiles'''
def relative_increase(a,b):
    return (a-b)/b

In [None]:
import pymc3 as pm
from scipy.stats import beta
np.random.seed(seed=0)
# estimaciones muestrales
digitales_fem = empirico.counts[0]
digitales_mas = empirico.counts[1]
fems = np.sum(empirico.counts[[0,2]]) 
mass = np.sum(empirico.counts[[1,3]]) 

# supuestos de la a priori uniforme
alpha_aprior = beta_apriori = 1
print(digitales_fem)
print(digitales_mas)
print(digitales_fem/fems  )
print(digitales_mas/mass  )


In [None]:
posterior_fem = beta( alpha_aprior + digitales_fem, beta_apriori + fems - digitales_fem)
posterior_mass = beta(alpha_aprior+ digitales_mas, beta_apriori + mass - digitales_mas)
muestra_size = len(datos)*10
print(muestra_size)

In [None]:
sampling_post_fem = posterior_fem.rvs(muestra_size)
sampling_post_mas = posterior_mass.rvs(muestra_size)

In [None]:
_hist(sampling_post_fem, 'Mujeres', colores[0])
_hist(sampling_post_mas, 'Hombres', colores[2])
plt.xlabel('% Digitales')
plt.ylabel('Densidad')
plt.title('Distribución aposteriori de uso de servicios digitales por género')
plt.legend(loc='upper right')

Donde podemos notar fácilmente que los hombres tienen mayor probabilidad de hacer uso de los servicios digitales, ahora calculemos un intervalo con __probabilidad__ de 95% sobre el número de veces que la proporción de hombres utilice los servicios digitales en comparación del de mujeres.  

In [None]:
posterior_mayor_p_mas = relative_increase( sampling_post_mas, sampling_post_fem)
_hist(posterior_mayor_p_mas, '', color='#5C4985')
plt.xlabel('% ')
plt.ylabel('Densidad')
plt.title('Distribución aposteriori de incremento de uso de servicios digitales\n de los clientes hombres respecto a los clientes mujeres')
plt.legend(loc='upper right')

In [None]:
print('Intervalo de 95% de probabilidad de mayor uso de servicios digitales en hombres con respecto al de mujeres')
print( '[' + str( np.round(np.percentile(posterior_mayor_p_mas, q=.025) , 4)) + ','+\
      str( np.round(np.percentile(posterior_mayor_p_mas, q=.975) , 4)) + ']')

# Creación de los modelos

En vista de que la mayoría de las columnas con las que trabajaremos son nominales vamos a realizar un cambio de encoding. Como tenemos algunas variables con más de 100 categorías en lugar de hacer dummies estas variables usaremos un encoding que mapea a cada categoría con un entero. 

In [None]:
cat_variables = datos.select_dtypes(['object']).columns
datos[cat_variables] = datos[cat_variables].apply(lambda x: x.astype('category').cat.codes)

In [None]:
# normalizamos las variables para tener mayor estabilidad numerica
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
variables = ['UNIDAD_NEGOCIO', 'EMISORA_FONDO', 'DESC_CE_FINANCIERO', 'SALDO_CLIENTE', 'TIPO_OPERACION', 'GENERO', 'Edad']
scaler.fit(datos[variables])
datos[variables] = scaler.transform(datos[variables])
datos.head()

In [None]:
with pm.Model() as logistic_model:
    pm.glm.GLM.from_formula('ENROLADO ~ UNIDAD_NEGOCIO + EMISORA_FONDO + DESC_CE_FINANCIERO +\
                            SALDO_CLIENTE + TIPO_OPERACION +GENERO',
                            datos,
                            family=pm.glm.families.Binomial())
    trace = pm.sample(1000, tune=1000, init='adapt_diag')

In [None]:
help(mp.sample)

# Exploración de los datos

In [None]:
# Dividimos el dataset en conjunto de entrenamiento y de prueba
from sklearn.model_selection import train_test_split
train_x, test_x, train_y, test_y = train_test_split( datos, y, test_size = 0.7, random_state=0)

# Creación de los modelos

En esta sección creamos los 4 modelos correspondientes a los clasificadores: kmeans, mezcla de gaussianas, bosques aleatorios o random forest y el XGBoosting (Gradient boosting) 

In [None]:
# inicializamos los modelos que evaluaremos
modelos = []
from sklearn.cluster import KMeans
modelos.append( KMeans(n_clusters = 2).fit(train_x) ) # 2 centros pues son el numero de categorias a clasificar

from sklearn.mixture import GaussianMixture
modelos.append( GaussianMixture (n_components = 2, covariance_type = 'full').fit(train_x))

from sklearn.ensemble import RandomForestClassifier
modelos.append( RandomForestClassifier(random_state=0).fit(train_x, train_y) )

import xgboost as xgb
modelos.append( xgb.XGBClassifier(random_state=1,learning_rate=0.01).fit(train_x, train_y) )
# tal vez sea necesario instalar la libraria y reiniciar el notebook 
# !pip install xgboost


# Primer apriori 

# Segunda apriori

# Evaluación de los modelos

Entrenamos y evaluamos por medio de la precisión (*accuracy*) en el conjunto de prueba el desempeño de los modelos.

In [None]:
from sklearn.metrics import accuracy_score
precision = []
for i in modelos:
    y_temp = i.predict(test_x)
    precision.append( accuracy_score(test_y, y_temp) )
precision

De donde obtenemos que el random forest es el segundo modelo con mayor precisión, solo marginalmente en comparación al XGB, sin embargo como RF es más interpretable lo escogemos como ganador. Procedemos a afinar el modelo por medio de sus parámetros con una búsqueda de grid.

In [None]:
grid = {}
for _ in range(0, 20):
    model = RandomForestClassifier(n_estimators = _*4+2, random_state=0 )
    model.fit(train_x, train_y)
    y_temp = model.predict(test_x)    
    grid[str(_*10+1)] =  accuracy_score(test_y, y_temp) 

In [None]:
grid

In [None]:
scaler = StandardScaler()
scaler.fit(final)
final = scaler.transform(final)

Donde el mejor modelo lo obtenemos con 101 árboles en el bosque.

In [None]:
model = RandomForestClassifier(n_estimators = 101, random_state=0 )
model.fit(final, y)

Para elegir los limites de probabilidad con los que clasificaremos, obtenemos los dos centroides de cada estrato formado por los valores ‘BANCO’ y ‘CASA DE BOLSA’ de la variable ‘UNIDAD_NEGOCIO’. 

In [None]:
np.random.seed(0)
kmeans = KMeans(n_clusters = 3, max_iter = 2000, random_state=0).fit( final[index_banco, :] )
banco_limites  = model.predict_proba( kmeans.cluster_centers_ )[:, 1] # probabilidad de tener banca electronica 
print(banco_limites)
kmeans = KMeans(n_clusters = 3, max_iter = 2000, random_state=0).fit( final[index_casa_de_bolsa, :] )
casa_limites  = model.predict_proba( kmeans.cluster_centers_ )[:,1] # probabilidad de tener banca electronica 
print(casa_limites)

y_prob = pd.DataFrame(model.predict_proba(final)[:,  1]  )

In [None]:
limite_banco = np.max(banco_limites)
limite_casa = np.max(casa_limites)
print(limite_banco)
print(limite_casa)
y_prob.hist()

In [None]:
final =pd.DataFrame(final)
final['STATUS_BE'] = y
y_prob = y_prob.reset_index(drop = True)
final[['Prediction']] = y_prob

In [None]:
# CLASIFICACAMOS CON LOS LIMITES QUE CALCULAMOS
mask = final['Prediction'][ index_banco ] > limite_banco
final['Prediction'][ index_banco ] = np.where( mask == True, 1, 0 )
mask = final['Prediction'][ index_casa_de_bolsa ] > limite_casa
final['Prediction'][ index_casa_de_bolsa ] = np.where( mask == True, 1, 0 )


In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix( y, final['Prediction'])

In [None]:
final.to_csv('Final.csv')

In [None]:
(222)/(2090+222)

Así con el modelo (Random Forest) elegido y los limites de probabilidad para clasificar, calculados con base en la clasificación no supervisada de los estratos de ‘BANCO’ y ‘CASA DE BOLSA’ , podemos identificar a 222 usuarios más propensos a no requerir los servicios del call center. 
Esto representa cerca del 10% en disminución de la carga de trabajo y costos que conlleva operar el CC. 

Es de notar que el __modelo seleccionado no clasifica a ningún usuario que no usa el CC como posible usuario del mismo__.  

# Distribuciones a posteriori 