# Recolección de datos

Esta parte la puede detallar mejor Jessica

# Preprocesamiento y extracción de características

Una vez que definimos las columnas, o variables, que utilizaremos en la construcción del dataset recurrimos a reglas del negocio para saber como tratar los valores *en blanco* o nulos

In [None]:
''' libraries'''
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from plotnine import *
''' config notebook ''' 
%matplotlib inline

datos = pd.read_csv('CAToperaciones.csv')
datos.dtypes

no tenemos ningun dato nulo :) de ello cuidamos en la RECOLECCIÓN DE LOS DATOS

In [None]:
datos.isnull().values.any() 

In [None]:
del datos['CLAVE_CLIENTE'] # para fines de modelación de momento el i del cliente no se requiere  

Como nuestro objetivo es impulsar la digitalización de la Banca de inversión, excluimos de nuestra muestra a las personas morales por las siguientes:

    - Los clientes de Actinver en su mayoría son personas físicas
    - Las personas morales pueden tener más de una persona que opere sus cuentas por lo que la elección o no de los servicios digitales puede estar comprometida o condicionada por reglas propias de su negocio.



In [None]:
# para excluir a las personas morales, la variable 'GENERO' nos permite identificarlas
print(datos.GENERO.value_counts())
index = datos[ datos['GENERO'] == 'SIN GENERO'].index
datos.drop(index, inplace=True)
datos = datos.reset_index()

# Exploración de los datos

Veamos cómo se distribuyen nuestras variables con relación a variable a predecir, las cuales en su mayoría son categóricas

In [None]:
# colores UP
colores =  np.array(  ['#A4061F', '#CFAB7A', '#00529B'  ])

In [None]:
ggplot(datos, aes(x='ENROLADO' , fill='ENROLADO')) + \
     geom_bar(aes(y = '(..count..)/sum(..count..)')) + \
     theme_minimal() + ylab('%') + scale_fill_manual(colores[0:2])

Notamos que la variable `CVE_UNIDAD_NEGOCIO` es la misma que `UNIDAD_NEGOCIO`, por lo que eliminamos la primera

In [None]:
ggplot(datos, aes(x='CVE_UNIDAD_NEGOCIO' , fill='UNIDAD_NEGOCIO')) + \
     geom_bar(aes(y = '(..count..)/sum(..count..)')) + \
     theme_minimal() + ylab('%') + scale_fill_manual(colores[1:3])

In [None]:
del datos['CVE_UNIDAD_NEGOCIO']

In [None]:
temp = datos['EMISORA_FONDO'].value_counts().index.tolist()[::-1]
temp
ggplot(datos) + aes(x='EMISORA_FONDO', y = '(..count..)/sum(..count..)',  fill='ENROLADO')  + geom_bar()  +\
  scale_x_discrete(limits=temp) + ylab('%') + theme_minimal() + \
     theme( legend_position='bottom', figure_size=(12, 16)) + \
     coord_flip() + scale_fill_manual(colores[1:3])
 

In [None]:
temp = datos['DESC_CE_FINANCIERO'].value_counts().index.tolist()[::-1]
temp
ggplot(datos) + aes(x='DESC_CE_FINANCIERO', y = '(..count..)/sum(..count..)',  fill='ENROLADO')  + geom_bar()  +\
  scale_x_discrete(limits=temp) + ylab('%') + theme_minimal() + \
     theme( legend_position='bottom', figure_size=(16, 12)) + \
     coord_flip() + scale_fill_manual(colores[1:3])

Como es común en las variables que reflejan ingresos, la variable`SALDO_CLIENTE` está sesgada positivamente por lo que trabajaremos en lo subsecuente con su logaritmo natural

In [None]:
ggplot(datos, aes(x='SALDO_CLIENTE', fill='ENROLADO', color='ENROLADO')) + geom_density( alpha=0.1) + theme_minimal() +\
scale_fill_manual(colores[[0,2]]) + scale_color_manual(colores[[0,2]]) 

In [None]:
datos['SALDO_CLIENTE'] = np.log(datos['SALDO_CLIENTE'] + 1) # para precision numerica
ggplot(datos, aes(x='SALDO_CLIENTE', fill='ENROLADO', color='ENROLADO')) + geom_density(alpha=0.1 ) + theme_minimal() +\
scale_fill_manual(colores[[0,2]]) + scale_color_manual(colores[[0,2]]) 

In [None]:
datos['TIPO_OPERACION'] =  datos['TIPO_OPERACION'].apply(lambda x : x.strip())
temp = datos['TIPO_OPERACION'].value_counts().index.tolist()[::-1]
ggplot(datos) + aes(x='TIPO_OPERACION', y = '(..count..)/sum(..count..)',  fill='ENROLADO')  + geom_bar()  +\
  scale_x_discrete(limits=temp) + ylab('%') + theme_minimal() + \
     theme(  figure_size=(16, 12)) + \
     coord_flip() + scale_fill_manual(colores[1:3])

In [None]:
ggplot(datos, aes(x='GENERO' , fill='ENROLADO')) + \
     geom_bar(aes(y = '(..count..)/sum(..count..)')) + \
     theme_minimal() + ylab('%') + scale_fill_manual(colores[0:2])

In [None]:
ggplot(datos, aes(x='Edad', fill='ENROLADO', color='ENROLADO')) + geom_density(alpha=0.1 ) + theme_minimal() +\
scale_fill_manual(colores[[0,2]]) + scale_color_manual(colores[[0,2]]) 

Como el alcance del proyecto es a personas físicas omitiremos de nuestro dataset el conjunto de personas morales. 

In [None]:
index = datos[ datos['DESC_TIPO_PERS'] == 'PERSONA MORAL'].index
datos.drop(index, inplace=True)
#############
index = datos[ datos['EDAD'] == 'PM'].index
datos.drop(index, inplace=True)

In [None]:
index = datos[ datos['CATEGORIA_OP'].isna() ].index # reemplazamos el nulo por un string
datos['CATEGORIA_OP'][index] = 'NULO'
datos['CATEGORIA_OP'] = datos['CATEGORIA_OP'].astype('category')

In [None]:
datos = datos.reset_index(drop=True)

In [None]:
index_banco = datos[ datos['UNIDAD_NEGOCIO'] == 'BANCO'].index
index_casa_de_bolsa = datos[ datos['UNIDAD_NEGOCIO'] == 'CASA DE BOLSA'].index

# Selección de características

De las variables numéricas que disponemos, que corresponden con saldos en cuenta de los clientes en dos diferentes momentos, estas estan altamente correlacionadas (como lo muestra la siguiente gráfica), por lo que descartaremos la segunda como *feature* para el modelo de clasificación que construiremos.

In [None]:
import matplotlib.pyplot as plt
plt.scatter(datos['SALDO_CONTRATO'], datos['SALDO_CLIENTE'], c = datos['STATUS_BE'])
print(np.corrcoef(datos['SALDO_CONTRATO'], datos['SALDO_CLIENTE']))

In [None]:
del datos['SALDO_CLIENTE']

En vista de que la mayoría de las columnas con las que trabajaremos son nominales vamos a realizar un cambio de encoding. Como tenemos algunas variables con más de 25 categorías en lugar de hacer dummies estas variables usaremos un encoding que mapea a cada categoría con un entero. 

In [None]:
cat_columns = datos.select_dtypes(['category']).columns
datos[cat_columns] = datos[cat_columns].apply(lambda x: x.cat.codes)
y = datos['STATUS_BE']
del datos['STATUS_BE']
print(datos.columns)
              # copia del dataset original preprocesado
import copy
final = copy.deepcopy(datos) 

x = datos
x.reset_index()
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(x)
datos = scaler.transform(x)
datos.shape

# Exploración de los datos

In [None]:
# Dividimos el dataset en conjunto de entrenamiento y de prueba
from sklearn.model_selection import train_test_split
train_x, test_x, train_y, test_y = train_test_split( datos, y, test_size = 0.7, random_state=0)

# Creación de los modelos

En esta sección creamos los 4 modelos correspondientes a los clasificadores: kmeans, mezcla de gaussianas, bosques aleatorios o random forest y el XGBoosting (Gradient boosting) 

In [None]:
# inicializamos los modelos que evaluaremos
modelos = []
from sklearn.cluster import KMeans
modelos.append( KMeans(n_clusters = 2).fit(train_x) ) # 2 centros pues son el numero de categorias a clasificar

from sklearn.mixture import GaussianMixture
modelos.append( GaussianMixture (n_components = 2, covariance_type = 'full').fit(train_x))

from sklearn.ensemble import RandomForestClassifier
modelos.append( RandomForestClassifier(random_state=0).fit(train_x, train_y) )

import xgboost as xgb
modelos.append( xgb.XGBClassifier(random_state=1,learning_rate=0.01).fit(train_x, train_y) )
# tal vez sea necesario instalar la libraria y reiniciar el notebook 
# !pip install xgboost


# Primer apriori 

# Segunda apriori

# Evaluación de los modelos

Entrenamos y evaluamos por medio de la precisión (*accuracy*) en el conjunto de prueba el desempeño de los modelos.

In [None]:
from sklearn.metrics import accuracy_score
precision = []
for i in modelos:
    y_temp = i.predict(test_x)
    precision.append( accuracy_score(test_y, y_temp) )
precision

De donde obtenemos que el random forest es el segundo modelo con mayor precisión, solo marginalmente en comparación al XGB, sin embargo como RF es más interpretable lo escogemos como ganador. Procedemos a afinar el modelo por medio de sus parámetros con una búsqueda de grid.

In [None]:
grid = {}
for _ in range(0, 20):
    model = RandomForestClassifier(n_estimators = _*4+2, random_state=0 )
    model.fit(train_x, train_y)
    y_temp = model.predict(test_x)    
    grid[str(_*10+1)] =  accuracy_score(test_y, y_temp) 

In [None]:
grid

In [None]:
scaler = StandardScaler()
scaler.fit(final)
final = scaler.transform(final)

Donde el mejor modelo lo obtenemos con 101 árboles en el bosque.

In [None]:
model = RandomForestClassifier(n_estimators = 101, random_state=0 )
model.fit(final, y)

Para elegir los limites de probabilidad con los que clasificaremos, obtenemos los dos centroides de cada estrato formado por los valores ‘BANCO’ y ‘CASA DE BOLSA’ de la variable ‘UNIDAD_NEGOCIO’. 

In [None]:
np.random.seed(0)
kmeans = KMeans(n_clusters = 3, max_iter = 2000, random_state=0).fit( final[index_banco, :] )
banco_limites  = model.predict_proba( kmeans.cluster_centers_ )[:, 1] # probabilidad de tener banca electronica 
print(banco_limites)
kmeans = KMeans(n_clusters = 3, max_iter = 2000, random_state=0).fit( final[index_casa_de_bolsa, :] )
casa_limites  = model.predict_proba( kmeans.cluster_centers_ )[:,1] # probabilidad de tener banca electronica 
print(casa_limites)

y_prob = pd.DataFrame(model.predict_proba(final)[:,  1]  )

In [None]:
limite_banco = np.max(banco_limites)
limite_casa = np.max(casa_limites)
print(limite_banco)
print(limite_casa)
y_prob.hist()

In [None]:
final =pd.DataFrame(final)
final['STATUS_BE'] = y
y_prob = y_prob.reset_index(drop = True)
final[['Prediction']] = y_prob

In [None]:
# CLASIFICACAMOS CON LOS LIMITES QUE CALCULAMOS
mask = final['Prediction'][ index_banco ] > limite_banco
final['Prediction'][ index_banco ] = np.where( mask == True, 1, 0 )
mask = final['Prediction'][ index_casa_de_bolsa ] > limite_casa
final['Prediction'][ index_casa_de_bolsa ] = np.where( mask == True, 1, 0 )


In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix( y, final['Prediction'])

In [None]:
final.to_csv('Final.csv')

In [None]:
(222)/(2090+222)

Así con el modelo (Random Forest) elegido y los limites de probabilidad para clasificar, calculados con base en la clasificación no supervisada de los estratos de ‘BANCO’ y ‘CASA DE BOLSA’ , podemos identificar a 222 usuarios más propensos a no requerir los servicios del call center. 
Esto representa cerca del 10% en disminución de la carga de trabajo y costos que conlleva operar el CC. 

Es de notar que el __modelo seleccionado no clasifica a ningún usuario que no usa el CC como posible usuario del mismo__.  

# Distribuciones a posteriori 