# Dataton BC 2018

*Dirección de Capacidades Analíticas y Gobierno de Información, Grupo Bancolombia*<br>
Esta versión: *2018-10-17*<br>
Documentación tablas

## Naturaleza de los datos

Los datos entregados en este reto corresponden a transacciones realizadas por clientes persona del banco vía [PSE](https://www.pse.com.co/inicio). Estas transacciones, a diferencia de las transacciones realizadas vía POS, no cuentan con un código [MCC](https://en.wikipedia.org/wiki/Merchant_category_code) atado a la transacción, que permite conocer la categoría de comercio a la que pertence el establecimiento de comercio donde se realiza la transacción. Adicionalmente, muchas de estas transferencias por PSE corresponden a transferencias de pagos de servicios públicos, seguros, colegios, arrendamientos, y otros gastos que pueden ser denominados como gastos grandes. En el marco de un sistema de gestión de finanzas personales, poder categorizar adecuadamente estas transacciones que se realizan por PSE es de suma importancia para contar con una foto completa de la actividad de gastos de los clientes. Para este reto, los equipos participantes tendrán acceso a una muestra de transacciones PSE que corresponden a algo más de 300 mil clientes (persona), seleccionados de manera aleatoria. La tabla de transacciones cuenta con 11.8 millones de registros (uno para cada transacción), realizados entre septiembre de 2016 y octubre de 2018.

**NOTA** Los datos han pasado por un proceso relativamente simple de curación, pero se han dejado algunos ruidos en la calidad de éstos con el fin de que los equipos también lleven a cabo un proceso de inspección y limpieza.


## NOTA IMPORTANTE

Recuerden que esta información aún contiene un elevado nivel de ruido. No solo no ha sido depurada de posibles datos atípicos (transacciones de valor muy elevado) fruto de errores o transacciones fallidas, sino que también cuenta con el ruido asociado al campo de referencia, donde se involucra el factor humano, ya que son campos de texto libre que pueden contener cualquier tipo de información.

Por seguridad, hemos eliminado cualquier número presente en dichos campos de referencia (cédulas, nits, montos, contratos, etc.).


In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt
import random
import time
%matplotlib inline
import matplotlib.animation as animation
import csv
matplotlib.style.use('seaborn')

from sklearn import preprocessing

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
from sklearn import manifold
from sklearn.cluster import AgglomerativeClustering
from scipy.cluster import hierarchy
from sklearn.cluster import DBSCAN
from sklearn.metrics.pairwise import pairwise_distances
# from wordcloud import WordCloud

from mpl_toolkits.mplot3d import Axes3D

Cargar los datos proeprocesados de las bases de datos

In [2]:
pagadores=pd.read_csv("info_pagadores.csv",index_col=0)
# pagadores=pagadores.iloc[:,1:]
pagadores.head()

Unnamed: 0,id_cliente,seg_str,ocupacion,tipo_vivienda,nivel_academico,estado_civil,genero,edad,ingreso_rango
0,18,PERSONAL PLUS,5,O,U,M,M,92.0,e. (4.4 5.5MM]
1,32,PERSONAL PLUS,E,F,T,M,M,80.0,i. (8.7 Inf)
2,41,EMPRENDEDOR,3,O,I,W,M,90.0,b. (1.1 2.2MM]
3,47,EMPRENDEDOR,7,,I,I,M,86.0,c. (2.2 3.3MM]
4,71,PERSONAL,5,O,S,M,M,79.0,e. (4.4 5.5MM]


In [3]:
transac_pag=pd.read_csv("client_fr_sum_periods.csv",index_col=0)
transac_pag.head()

Unnamed: 0,id_cliente,count,valor_trx_suma,dia_sem_0.0,dia_sem_1.0,dia_sem_2.0,dia_sem_3.0,dia_sem_4.0,dia_sem_5.0,dia_sem_6.0,...,semana_year_sum_44.0,semana_year_sum_45.0,semana_year_sum_46.0,semana_year_sum_47.0,semana_year_sum_48.0,semana_year_sum_49.0,semana_year_sum_50.0,semana_year_sum_51.0,semana_year_sum_52.0,semana_year_sum_53.0
0,1,26,42769383.24,11,6,6,2,1,0,0,...,,1765195.73,,79652.03,,,3395078.84,,,
1,2,6,1365034.29,1,0,2,0,3,0,0,...,,228017.43,,,,,227118.8,,,
2,3,53,12058409.54,4,23,8,6,12,0,0,...,354125.88,362422.61,,,,2376708.76,,346696.94,,
3,4,7,2534093.31,0,0,1,2,4,0,0,...,,,,,,,,,,
4,5,27,10990697.4,3,6,7,6,5,0,0,...,825055.41,,,,449752.12,388489.09,,,,


# Normalizar los datos

In [4]:
transac_pag=pd.merge(transac_pag,pagadores[["id_cliente","edad"]],on='id_cliente')
transac_pag.head()

Unnamed: 0,id_cliente,count,valor_trx_suma,dia_sem_0.0,dia_sem_1.0,dia_sem_2.0,dia_sem_3.0,dia_sem_4.0,dia_sem_5.0,dia_sem_6.0,...,semana_year_sum_45.0,semana_year_sum_46.0,semana_year_sum_47.0,semana_year_sum_48.0,semana_year_sum_49.0,semana_year_sum_50.0,semana_year_sum_51.0,semana_year_sum_52.0,semana_year_sum_53.0,edad
0,1,26,42769383.24,11,6,6,2,1,0,0,...,1765195.73,,79652.03,,,3395078.84,,,,92.0
1,2,6,1365034.29,1,0,2,0,3,0,0,...,228017.43,,,,,227118.8,,,,87.0
2,3,53,12058409.54,4,23,8,6,12,0,0,...,362422.61,,,,2376708.76,,346696.94,,,89.0
3,4,7,2534093.31,0,0,1,2,4,0,0,...,,,,,,,,,,91.0
4,5,27,10990697.4,3,6,7,6,5,0,0,...,,,,449752.12,388489.09,,,,,91.0


## One hot-encoding para los categóricos

In [5]:
pagadores=pagadores[["id_cliente","seg_str","ocupacion","tipo_vivienda","nivel_academico","estado_civil","genero","ingreso_rango"]]
pagadores.index=(pagadores.id_cliente)
pagadores=pagadores.iloc[:,1:]
pagadores.ingreso_rango=pagadores.ingreso_rango.replace(["a. (0  1.1MM]",
                                                         "b. (1.1  2.2MM]",
                                                         "c. (2.2  3.3MM]",
                                                         "d. (3.3  4.4MM]",
                                                         "e. (4.4  5.5MM]",
                                                         "f. (5.5  6.6MM]",
                                                         "g. (6.6  7.6MM]",
                                                         "h. (7.6  8.7MM]",
                                                         "i. (8.7  Inf)"],
                                                        ["a","b","c","d","e","f","g","h","i"])
pagadores.head()

Unnamed: 0_level_0,seg_str,ocupacion,tipo_vivienda,nivel_academico,estado_civil,genero,ingreso_rango
id_cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
18,PERSONAL PLUS,5,O,U,M,M,e
32,PERSONAL PLUS,E,F,T,M,M,i
41,EMPRENDEDOR,3,O,I,W,M,b
47,EMPRENDEDOR,7,,I,I,M,c
71,PERSONAL,5,O,S,M,M,e


In [6]:
pagadores_oneh=pd.get_dummies(pagadores).astype("float64")

## Escala percentil de los valores  numéricos

In [7]:
transac_pag.index=(transac_pag.id_cliente)
transac_pag=transac_pag.iloc[:,1:]
transac_pag.head()

Unnamed: 0_level_0,count,valor_trx_suma,dia_sem_0.0,dia_sem_1.0,dia_sem_2.0,dia_sem_3.0,dia_sem_4.0,dia_sem_5.0,dia_sem_6.0,dia_mes_1.0,...,semana_year_sum_45.0,semana_year_sum_46.0,semana_year_sum_47.0,semana_year_sum_48.0,semana_year_sum_49.0,semana_year_sum_50.0,semana_year_sum_51.0,semana_year_sum_52.0,semana_year_sum_53.0,edad
id_cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,26,42769383.24,11,6,6,2,1,0,0,0,...,1765195.73,,79652.03,,,3395078.84,,,,92.0
2,6,1365034.29,1,0,2,0,3,0,0,0,...,228017.43,,,,,227118.8,,,,87.0
3,53,12058409.54,4,23,8,6,12,0,0,0,...,362422.61,,,,2376708.76,,346696.94,,,89.0
4,7,2534093.31,0,0,1,2,4,0,0,0,...,,,,,,,,,,91.0
5,27,10990697.4,3,6,7,6,5,0,0,6,...,,,,449752.12,388489.09,,,,,91.0


In [8]:
transac_pag=transac_pag.fillna(0)
quantile_transformer = preprocessing.QuantileTransformer(random_state=0)
transac_pag_centil= quantile_transformer.fit_transform(transac_pag)
transac_pag_centil

array([[  6.11611612e-01,   9.37764698e-01,   8.30330330e-01, ...,
          9.99999998e-08,   9.99999998e-08,   9.99499499e-01],
       [  3.25825826e-01,   3.72040419e-01,   3.53353353e-01, ...,
          9.99999998e-08,   9.99999998e-08,   9.98998999e-01],
       [  7.83283283e-01,   7.58257465e-01,   6.08608609e-01, ...,
          9.99999998e-08,   9.99999998e-08,   9.99199199e-01],
       ..., 
       [  7.39239239e-01,   8.35524589e-01,   5.49549550e-01, ...,
          7.88306022e-01,   9.99999998e-08,   6.00600601e-03],
       [  9.99999998e-08,   3.53442007e-01,   9.99999998e-08, ...,
          9.99999998e-08,   9.99999998e-08,   6.00600601e-03],
       [  2.59759760e-01,   1.95520265e-01,   9.99999998e-08, ...,
          9.99999998e-08,   9.99999998e-08,   6.00600601e-03]])

In [9]:
transac_pag_centil=pd.DataFrame(transac_pag_centil, index=transac_pag.index, columns=transac_pag.columns)
transac_pag_centil=transac_pag_centil.fillna(0)
transac_pag_centil.head()

Unnamed: 0_level_0,count,valor_trx_suma,dia_sem_0.0,dia_sem_1.0,dia_sem_2.0,dia_sem_3.0,dia_sem_4.0,dia_sem_5.0,dia_sem_6.0,dia_mes_1.0,...,semana_year_sum_45.0,semana_year_sum_46.0,semana_year_sum_47.0,semana_year_sum_48.0,semana_year_sum_49.0,semana_year_sum_50.0,semana_year_sum_51.0,semana_year_sum_52.0,semana_year_sum_53.0,edad
id_cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0.611612,0.937765,0.8303303,0.6796797,0.685686,0.463964,0.344845,1e-07,1e-07,1e-07,...,0.9793163,1e-07,0.821949,1e-07,1e-07,0.9883108,1e-07,1e-07,1e-07,0.999499
2,0.325826,0.37204,0.3533534,1e-07,0.454454,1e-07,0.546547,1e-07,1e-07,1e-07,...,0.8785208,1e-07,1e-07,1e-07,1e-07,0.8444988,1e-07,1e-07,1e-07,0.998999
3,0.783283,0.758257,0.6086086,0.9469469,0.751752,0.6961962,0.852853,1e-07,1e-07,1e-07,...,0.9068332,1e-07,1e-07,1e-07,0.9797293,1e-07,0.9010876,1e-07,1e-07,0.999199
4,0.351852,0.469572,1e-07,1e-07,0.334835,0.463964,0.608609,1e-07,1e-07,1e-07,...,1e-07,1e-07,1e-07,1e-07,1e-07,1e-07,1e-07,1e-07,1e-07,0.999399
5,0.620621,0.741026,0.5495495,0.6796797,0.721221,0.6961962,0.659159,1e-07,1e-07,0.9409409,...,1e-07,1e-07,1e-07,0.8951348,0.8843506,1e-07,1e-07,1e-07,1e-07,0.999399


In [10]:
clientes_normaliz=pagadores_oneh.join(transac_pag_centil)
clientes_normaliz.head()

Unnamed: 0_level_0,seg_str_EMPRENDEDOR,seg_str_OTRO,seg_str_PERSONAL,seg_str_PERSONAL PLUS,seg_str_PREFERENCIAL,ocupacion_1,ocupacion_2,ocupacion_3,ocupacion_4,ocupacion_5,...,semana_year_sum_45.0,semana_year_sum_46.0,semana_year_sum_47.0,semana_year_sum_48.0,semana_year_sum_49.0,semana_year_sum_50.0,semana_year_sum_51.0,semana_year_sum_52.0,semana_year_sum_53.0,edad
id_cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
18,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.9725721,1e-07,1e-07,1e-07,0.8890917,1e-07,1e-07,1e-07,1e-07,0.999499
32,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,1e-07,1e-07,1e-07,1e-07,1e-07,1e-07,1e-07,1e-07,1e-07,0.996496
41,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,0.8891378,1e-07,1e-07,1e-07,0.9076961,1e-07,1e-07,1e-07,1e-07,0.999299
47,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,1e-07,0.8315952,0.9487427,1e-07,0.8023589,1e-07,0.9454577,0.798911,1e-07,0.998749
71,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,...,1e-07,1e-07,0.9243865,0.8131353,1e-07,1e-07,1e-07,1e-07,1e-07,0.995996


In [11]:
clientes_normaliz=clientes_normaliz.replace(np.nan,0)
clientes_normaliz.to_csv("clientes_normaliz.csv")