### Entendimiento del Problema  
Los bancos ofrecen a sus clientes una gran variedad de productos y servicios para manejar su dinero. Dependiendo de las necesidades específicas de cada uno de los clientes, puede ser más recurrente que realice un tipo de operación, pero de igual forma, puede realizar de manera ocasional otra.  
En el caso que se estudia, lo que se quiere realizar es la predicción de cuál será el tipo de la siguiente transacción que realizará un cliente, para esto se analizan a continuación algunos tipos de estas, que son ofrecidas por los bancos en general. Se tienen dos grandes grupos de transacciones, de acuerdo al banco BBVA, aquellas que suponen un ingreso de dinero y aquellas que generan un retiro del mismo.
Dentro del grupo de de ingreso de dinero se tienen los abonos periódicos que pueden ser por pagos de nómina o pensiones, las transferencias recibidas las cuales suponen un ingreso de dinero de parte de otra persona o entidad sin que sea de carácter recurrente, la liquidación de intereses que se da de acuerdo a las condiciones del producto bancario contratado y el ingreso de efectivo.  
Por su parte en la categoría de operaciones que retiran dinero se encuentran como los pagos periódicos que pueden ser de servicios públicos o de obligaciones bancarias programadas y se realizan periódicamente, transferencias que consisten en mover dinero de una cuenta propia a la de un tercero, pago de comisiones por servicios bancarios de acuerdo a las condiciones del producto bancario y el retiro de efectivo.
Teniendo en cuenta las características de las transacciones que hacen parte a cada uno de los grupos, se puede ver que algunas de estas permiten clasificarlas; por ejemplo la periodicidad de un valor a favor puede indicar que dicha transacción es un abono periódico así como valores en contra indican que se puede tratar de una transferencia a un tercero o un retiro en efectivo.  
Las categorías de operación anteriormente mencionadas, corresponden a las que generalmente pueden ser realizadas desde una cuenta de ahorros o corriente; pero los bancos ofrecen a sus clientes otros productos como tarjetas de crédito.  
Desde el apartado de las tarjetas de crédito los bancos ofrecen una alternativa de financiación a los clientes. Con este tipo de productos los clientes pueden realizar operaciones como compras diferidas a plazos, avances en efectivo que de igual forma se hacen a plazos, cobros de intereses sobre el capital adeudado y cobros de utilización del producto como cuotas de manejo. Para el caso de los avances y las compras, la característica principal de estas consiste en que se realizan a un determinado plazo; los cobros por interés o por utilización se realizan periodicamente de acuerdo a las condiciones propias del producto.  
Teniendo en cuenta que los datos que se tienen a disposición corresponden a operaciones bancarias realizadas por clientes del Banco Santander, es importante el entendimiento y la caracterización de las principales operaciones que ofrecen los bancos.


### Analisis Exploratorio  
**Inventario de Datos**  
Para este análisis se cuenta con un conjunto de datos, específicamente para entrenamiento, que cuenta con 200.000 registros cada uno de estos cuenta con valores para 202 variables, dentro de estas variables se tiene un Identificador y la variable que se quiere predecir correspondiente al tipo de operación bancaria que se realizó. Las demas variables que tiene el set de datos son de tipo númerico; además se tiene la particularidad de que ninguna de las variables númericas tiene un nombre que la describa, únicamente son identificadas como var_n, donde n es el número de columna de la variable en el set de datos.

**Exploración de variables**  
Comenzamos analizando la variable objetivo que se quiere predecir en el problema.

In [None]:
library(dplyr);
library(ggplot2);
bd <- read.csv(file = "../input/train.csv",sep = ",")#Cargar el archivo de datos.
bd$target <- as.factor(bd$target)#Convertir a categorica la variable
bd <- bd %>% dplyr::select(-ID_code)
ggplot(bd,aes(target,fill=target))+geom_bar()+ggtitle("Variable Objetivo")+labs(x= "Target", y = "Frecuencia")

Se observa que la mayoria de casos del set de datos pertencen al tipo de transacción 0. A partir de esta gráfica tambień se puede concluir que se los datos no están balanceados, siendo muy grande la dominancia de la categoría mencionada.  
  
Dado que se tiene una gran cantidad de variables, es importante observar las características de distribución que siguen las variables, pues algunos supuestos deben cumplirse para poder aplicar cualquier tipo de técnica de modelado. A continuación se muestran algunas gráfica de forma, densidad y distribución para ciertas variables escogidas aleatoriamente. Se hace de esta manera pues al no contar con etiquetas más descriptivas de las variables que se tienen, a priori no existe un interés en analizar alguna en específico.

In [None]:
library(ggplot2)
#Densidades variables
ggplot(bd, aes(x=var_11))+ggtitle("Distribución Var_11")+geom_density(alpha=.2, fill="#CC99CC")
ggplot(bd, aes(x=var_118))+ggtitle("Distribución Var_118")+geom_density(alpha=.2, fill="#6699CC")
ggplot(bd, aes(x=var_57))+geom_density(alpha=.2, fill="#339966")+ggtitle("Distribución Var_57")
ggplot(bd, aes(x=var_99))+geom_density(alpha=.2, fill="#66FFFF")+ggtitle("Distribución Var_99")

Observando las gráficas de densidad para las variables var_11, var_118, var_57 y var_99, se puede apreciar que todas siguen una distribución similar, con tendencia a forma de campana, lo cuál puede indicar que tal vez pueden seguir una distribución normal.  
Para tener otra visulización de esta situación se analizan a continuación gráficas de tipo QQ, que brindan información sobre la posible distribución que siguen los datos.

In [None]:
#qq Variables
library(ggpubr)
ggqqplot(bd$var_133,size = .5,color = "#663300",title = "QQ-Plot var_133")
ggqqplot(bd$var_121,size = .5,color = "#330066",title = "QQ-Plot var_121")
ggqqplot(bd$var_185,size = .5,color = "#009966",title = "QQ-Plot var_185")
ggqqplot(bd$var_118,size = .5,color = "#CC9933",title = "QQ-Plot var_185")

Con los gráficos anteriores se analizaron las distribuciones de probabilidad que podrian seguir los datos, ahora se procede a obtener información sobre los valores que alcanzan las observaciones para diferentes variables del set de datos.

In [None]:
##Box variables
ggplot(bd,aes(y=var_102,x=target,fill=target))+geom_boxplot()+ggtitle("Box Plot var_102")+labs(y="var_102",x="Target")
ggplot(bd,aes(y=var_113,x=target,fill=target))+geom_boxplot()+ggtitle("Box Plot var_113")+labs(y="var_113",x="Target")
ggplot(bd,aes(y=var_2,x=target,fill=target))+geom_boxplot()+ggtitle("Box Plot var_2")+labs(y="var_2",x="Target")
ggplot(bd,aes(y=var_198,x=target,fill=target))+geom_boxplot()+ggtitle("Box Plot var_198")+labs(y="var_198",x="Target")

Para el gráfico de caja y bigotes de la variable var_102 se observa que la gran mayoría de los datos están centrados en la media, además existen pocos valores extremos. Llma la atención en esta gráfica que la variable toma tanto valores positivos como negativos, siendo que aquellas observaciones de tipo 0 concentran puntos extremos en su mayoría negativos.  
Por su parte para la variable var_113 se observa una mayor armonía en la distribución de los datos, con muy pocas observaciones en valores extremos. Es importante notar aquí que la variable var_113 varia en un rango menor al que lo hace la variable var_102, presentando observaciones con valores negativos.    
Analizando la variable var_2, para este caso la variable vuelve a tener observaciones en valores extremos, con la característica de que no tiene valores negativos.  
Por último la varirable var_198 tampoco presenta valores negativos; vuelve a contener puntos extremos la mayoria con valor positivo. Maneja una escala de valores un poco mayor al de las demás variables analizadas gráficamente.  
Por simplicidad, no se muestran estas gráficas para todas las variables, pero si es importante tener información de los estadísticos de cada una de estas.


In [None]:
#Descriptiva de las variables
summary(bd)

Hasta ahora se han analizado las variables por separado. Con el fin de analizar las relacines entre las variables, se utiliza la correlación. A continuación se calcula el coeficiente de coorelación de Pearson entre las variables para establecer si existe relación entre estas.

In [None]:
library(Hmisc)
correlacion <- rcorr(as.matrix(bd %>% dplyr::mutate(target = as.numeric(target))))

imprimirMatriz <- function(cormat) {
  ut <- upper.tri(cormat)
  data.frame(
    row = rownames(cormat)[row(cormat)[ut]],
    column = rownames(cormat)[col(cormat)[ut]],
    cor  =(cormat)[ut]
  )
}

imprimirMatriz(correlacion$r)


Los coeficientes de correlación calculados demuestran que entre las variables no existe correlación realmente significativa, pues el valor generalmente utilizdo para afirmar que haya correlación entre variables de que sea mayor al 0.75; los coeficientes entre las variables del set de datos que se trabaja están muy por debajo de este punto de corte, por lo tanto se puede afirmar que las variables no están relacionadas.  
### Modelado
** Selección de Variables **  
Como se pudo observar en la fase de análisis exploratorio la gran cantidad de variables que tiene el set de datos suponen una dificultad a la hora de construir un modelo simple y a la vez poderoso para resolver el problema, por lo tanto es necesario utilizar alguna estrategia de selección de variables que permita construir un modelo con menos variables.  
La estrategia a utilizar será la regresión Lasso. Este método permite realizar tunning a una regresión multivariada, por lo tanto se deben ajustar los datos para poder utilizarla. Es necesario que la variable objetivo se vea no como categorica, si no que vea como variable númerica que toma únicamente 2 valores. El tunning que se mencionó, procura encontrar el valor del hiperparámetro lambda, que en nuestro caso, lleve la mayor cantidad posible de coeficientes de regresión a 0 para seleccionar variables.

In [None]:
library(glmnet)
bd <- bd %>% dplyr::mutate(target = as.numeric(target))
matPredictTrain <- as.matrix(bd%>% dplyr::select(-target))
matDependTrain <- as.matrix(bd %>% dplyr::select(target))
modeloLasso <- glmnet(matPredictTrain, matDependTrain, alpha = 1)#Modelo Lasso
foundlasso <-cv.glmnet(matPredictTrain, matDependTrain, alpha=1, nfolds=10)#Tunnig de lambda
plot(foundlasso)
foundlasso$lambda.1se
foundlasso$lambda.min
#Ver los coeficientes obtenidos en cada uno 
coef(modeloLasso,s=foundlasso$lambda.min)
coef(modeloLasso,s=foundlasso$lambda.1se)

El resultado del tunning del hiperparámetro lambda ofrece resultados más utiles cuando se utiliza su valor 1 desvisción estándar más del calculado. Con este valor efectivamente se elminan varias variables, lo cual va a permitir construir un modelo más sencillo.  
**Modelo**  
Teniendo en cuenta que el objetivo de este modelo es clasificar, y recordando la conclusión sobre independencia de las variables que se obtuvo en el análisis exploratorio se define que dado esto y la gran cantidad de variables que aún se siguen manejando, el modelo más idoneo para el problema es un clasificador Bayes Ingenuo o Naive Bayes. Este modelo hace el supuesto de que las variables de entrada son independientes, es decir, la probabilidad de que ocurra un evento u otro son independientes, y por lo tanto se puede utilizar el teorema de Bayes para la probabilidad condicional.  
Lo primero que se debe hacer para construir el modelo es quitar del set de datos las variables que indicó el proceso de selección por medio de regresión Lasso.

In [None]:
remove(bd)
bd <- read.csv(file = "../input/train.csv",sep = ",")#Cargar el archivo de datos.
bd <- bd %>% dplyr::select(-ID_code,-var_183,-var_161,-var_160,-var_158,-var_153,-var_136,-var_126,-var_124,-var_117,-var_103,-var_100,-var_98,-var_96,-var_79,-var_69,-var_46,-var_41,-var_39,-var_38,-var_30,-var_27,-var_17,-var_14,-var_10,-var_7)
bd <- bd %>% dplyr::mutate(target = as.factor(target))
library(e1071)
modeloNB = naiveBayes(target ~., data=bd)
modeloNB
test <- read.csv(file = "../input/test.csv",sep = ",")#Cargar el archivo de datos.
#predecir = predict(modeloNB,test)
salida <- data.frame(test$ID_code,predecir)
salida <- salida %>% rename(ID_code=test.ID_code,target=predecir)
write.csv(salida,"salidaNB-Lasso0.csv",row.names = FALSE)