Financiera Compartamos
-----------------------------------------

## Limpieza de Datos

In [1]:
# warnings
import warnings
warnings.filterwarnings("ignore")
# import data
import numpy as np
import pandas as pd
df = pd.read_excel('data/dataOriginal.xlsx')
# cast to str
df.codigoCuenta=df.codigoCuenta.apply(str)
df.codigoCliente=df.codigoCliente.apply(str)
df.codigoFuente=df.codigoFuente.apply(str)
# cast to date
df.fechaApertura = pd.to_datetime(df.fechaApertura)
df.fechaVigencia = pd.to_datetime(df.fechaVigencia)
df.fechaUltimoPago = pd.to_datetime(df.fechaUltimoPago)
df.fechaVencimiento = pd.to_datetime(df.fechaVencimiento)
df.dSalPag = pd.to_datetime(df.dSalPag)
# drop useless columns
df.drop(['codigoFuente', 'ctipcuo', 'fechaVigencia', 'fechaTermino', 'cestado', 
         'ccodprd', 'ccodana', 'cCodPdc', 'capitalDesembolsado', 'diasDeAtraso',
         'Fuente de financiamiento', 'nPerLbr', 'cComApr', 'diasAtrasoMaximo',
         'cctapre', 'ntasint', 'npagcta', 'nmorpag', 'ngastos', 'ngaspag',
         'nintpen', 'nintcal', 'nintpag', 'nintmor', 'capitalCalculado', 'dSalPag'
        ], axis=1, inplace=True)

### Datos Cualitativos

In [2]:
df.describe(include=['object'])

Unnamed: 0,codigoCuenta,codigoCliente,tipoCredito,sectorEconomico,ctipcal,condicionCredito,cmarjud
count,30575,30575,30575,30575,30575,30575,30575
unique,30575,26412,3,8,2,2,3
top,60110558123,24082661,R,1,S,Z,S
freq,1,4,18526,14892,30471,30433,27708


_Establecer como index a codigo cuenta y cambiar codigo cliente a valor si es unica cuenta_

In [3]:
dftest = df['codigoCuenta'].groupby([df['codigoCliente']]).count()
md1c = dftest.index[dftest==1]
df['cuentaUnica']=df.codigoCliente.isin(md1c)
df.cuentaUnica=df.cuentaUnica.apply(int).apply(str)
df.drop(['codigoCliente'], axis=1, inplace=True)
df = df.set_index('codigoCuenta')

_Verificar Datos de tipo objeto_

In [4]:
df.describe(include=['object'])

Unnamed: 0,tipoCredito,sectorEconomico,ctipcal,condicionCredito,cmarjud,cuentaUnica
count,30575,30575,30575,30575,30575,30575
unique,3,8,2,2,3,2
top,R,1,S,Z,S,1
freq,18526,14892,30471,30433,27708,22671


In [5]:
display('Tipo Credito', df.tipoCredito.unique())
display('Sector Económico', df.sectorEconomico.unique())#(01,02,03) (04,05) (06,07)
display('Tipo de Cálculo', df.ctipcal.unique())
display('Condición Crédito', df.condicionCredito.unique())
display('Mar Judicial', df.cmarjud.unique())

'Tipo Credito'

array(['N', 'R', 'U'], dtype=object)

'Sector Económico'

array(['01', '03', '02', '05', '07', '04', '  ', '06'], dtype=object)

'Tipo de Cálculo'

array(['S', 'E'], dtype=object)

'Condición Crédito'

array(['Z', 'J'], dtype=object)

'Mar Judicial'

array(['S', 'J', 'P'], dtype=object)

__Buscando Campos en blanco__

In [6]:
df.sectorEconomico[df.sectorEconomico=='  ']=None
df.isnull().sum() # buscar campos sin datos

tipoCredito            0
Moneda                 0
modalidadCredito       0
sectorEconomico      438
destinoCredito         0
fechaApertura          0
ctipper                0
ctipcal                0
fechaUltimoPago     1361
montoApertura          0
capitalPagado          0
numeroDeCuotas         0
condicionCredito       0
cmarjud                0
fechaVencimiento       9
nTasEfe                0
cCodOfi                0
nPerGra                0
cuentaUnica            0
dtype: int64

__Definimos a los que son deudores__

In [7]:
df['esDeudor'] = ((df.montoApertura-df.capitalPagado)/df.montoApertura<0.5).apply(str)
df.esDeudor.describe()

count     30575
unique        2
top       False
freq      17159
Name: esDeudor, dtype: object

### Datos de Tiempo

In [8]:
df.describe(include=['datetime'])

Unnamed: 0,fechaApertura,fechaUltimoPago,fechaVencimiento
count,30575,29214,30566
unique,907,2037,1331
top,2012-08-31 00:00:00,2013-05-28 00:00:00,2013-12-02 00:00:00
freq,899,1049,326
first,2009-12-22 00:00:00,2010-02-10 00:00:00,2010-04-17 00:00:00
last,2012-12-31 00:00:00,2018-08-31 00:00:00,2018-01-08 00:00:00


### Filtro de data por Fechas

In [9]:
df.dropna(subset=['fechaVencimiento'], inplace=True) # quitamos data sin fecha de vencimiento
diasxmes = 30
df['diasSinPagar'] = np.int32(((df.fechaVencimiento - df.fechaUltimoPago).dt.days).fillna((df.fechaVencimiento - df.fechaApertura).dt.days))
df['clienteMoroso'] = (df.diasSinPagar<0).apply(int).apply(str) # ultimo pago post fecha vencida
df['diasSinPagar'] = np.abs(df.diasSinPagar)
df.clienteMoroso.describe()

count     30566
unique        2
top           0
freq      25219
Name: clienteMoroso, dtype: object

__Retirando data no útil__

In [10]:
# quitamos data que pueda alterar nuestra predictividad
df.dropna(subset=['sectorEconomico'], inplace=True) # quitamos data sin sector economico definido
df.drop(['fechaApertura'], axis=1, inplace=True)
df.drop(['fechaUltimoPago'], axis=1, inplace=True)
df.drop(['fechaVencimiento'], axis=1, inplace=True)
df.isnull().sum() # buscar campos sin datos

tipoCredito         0
Moneda              0
modalidadCredito    0
sectorEconomico     0
destinoCredito      0
ctipper             0
ctipcal             0
montoApertura       0
capitalPagado       0
numeroDeCuotas      0
condicionCredito    0
cmarjud             0
nTasEfe             0
cCodOfi             0
nPerGra             0
cuentaUnica         0
esDeudor            0
diasSinPagar        0
clienteMoroso       0
dtype: int64

### Datos Cuantitativos

In [11]:
df.describe(include=['int64'])

Unnamed: 0,Moneda,modalidadCredito,destinoCredito,ctipper,numeroDeCuotas,cCodOfi,nPerGra
count,30128.0,30128.0,30128.0,30128.0,30128.0,30128.0,30128.0
mean,1.001129,1.021044,3.217738,1.996448,13.244855,15.277549,0.000133
std,0.033575,0.238289,2.132137,0.05949,5.651643,9.512876,0.014112
min,1.0,1.0,1.0,1.0,1.0,1.0,0.0
25%,1.0,1.0,2.0,2.0,12.0,8.0,0.0
50%,1.0,1.0,2.0,2.0,12.0,14.0,0.0
75%,1.0,1.0,4.0,2.0,12.0,24.0,0.0
max,2.0,5.0,8.0,2.0,60.0,59.0,2.0


__Analizando los Campos__

In [12]:
display('Moneda', df.Moneda.unique())
display('Modalidad Crédito', df.modalidadCredito.unique())
display('Destino Crédito', df.destinoCredito.unique())
display('Tipo Persona', df.ctipper.unique())
display('Numero de Cuotas', df.numeroDeCuotas.unique()) # numerico, cuotas (meses)
display('Oficinas', df.cCodOfi.unique()) # agrupar por pais, zona
display('Periodo de Gracia', df.nPerGra.unique()) # numerico, periodos de gracia (meses)

'Moneda'

array([1, 2], dtype=int64)

'Modalidad Crédito'

array([1, 3, 5], dtype=int64)

'Destino Crédito'

array([2, 4, 7, 8, 1, 3, 6, 5], dtype=int64)

'Tipo Persona'

array([2, 1], dtype=int64)

'Numero de Cuotas'

array([12, 18, 24,  9,  6, 36, 30, 15,  1, 14, 10,  8, 16, 13, 20, 60, 48,
        7, 25, 22, 34, 21, 17,  4,  3, 40, 27, 19, 28, 42, 44, 33,  5, 11,
       32, 38, 29, 26, 35,  2], dtype=int64)

'Oficinas'

array([ 1, 24,  7, 14, 26,  2, 22, 29,  5,  3, 27, 30,  4, 36,  6, 28, 25,
        8, 37, 57,  9, 11, 31, 59, 13, 32, 10, 12, 15, 38, 16, 17, 35, 18,
       19, 20, 33, 34], dtype=int64)

'Periodo de Gracia'

array([0, 2, 1], dtype=int64)

__Definimos los que si serán numericos enteros__

In [13]:
df.Moneda=df.Moneda.apply(str)
df.modalidadCredito=df.modalidadCredito.apply(str)
df.destinoCredito=df.destinoCredito.apply(str)
df.ctipper=df.ctipper.apply(str)
df.cCodOfi=df.cCodOfi.apply(str)
df.describe(include=['int64'])

Unnamed: 0,numeroDeCuotas,nPerGra
count,30128.0,30128.0
mean,13.244855,0.000133
std,5.651643,0.014112
min,1.0,0.0
25%,12.0,0.0
50%,12.0,0.0
75%,12.0,0.0
max,60.0,2.0


__Datos Cuantitativos no exactos, numéricos de punto flotante (Reales)__

In [14]:
df.describe(include=['float'])

Unnamed: 0,montoApertura,capitalPagado,nTasEfe
count,30128.0,30128.0,30128.0
mean,4085.468884,1978.120835,3.670227
std,5718.899807,3500.031275,0.670471
min,138.49,0.0,1.09
25%,1000.0,364.0375,3.29
50%,2000.0,858.385,3.49
75%,5000.0,1981.9875,3.99
max,60000.0,59840.58,6.993


In [15]:
montoMensual = (df.montoApertura/df.numeroDeCuotas)
df['numeroCuotasPagadas']=(df.capitalPagado/montoMensual).apply(int)
df.describe(include=['int64'])

Unnamed: 0,numeroDeCuotas,nPerGra,numeroCuotasPagadas
count,30128.0,30128.0,30128.0
mean,13.244855,0.000133,5.610462
std,5.651643,0.014112,4.833444
min,1.0,0.0,0.0
25%,12.0,0.0,2.0
50%,12.0,0.0,5.0
75%,12.0,0.0,8.0
max,60.0,2.0,59.0


## Resumen de Características

__Tipo de Dato: int__
    - numeroDeCuotas
    - nPerGra
    - numeroCuotasPagadas
__Tipo de Dato: float__
    - montoApertura
    - capitalPagado
    - nTasEfe
__Tipo de Dato: object__
    - tipoCredito:
        N(Nuevo)        R(Recurrente)	        U(Recuperado)
    - Moneda
        1(Soles)	2(Dolar)
    - modalidadCredito
        1(Credito)	3(Ordinario)	5(Paralelo)
    - sectorEconomico 	
        01(comercio)	02(Industria)	03(Servicios)	04(Agricola)	05(Ganadero)	06(Pesquero)	07(Minero)
    - destinoCredito
        1(Capital Trabajo Formal)	2(Capital Trabajo Informal)	3(Activo Fijo Formal)	4(Activo Fijo Informal)	
        5(Mixto Formal)	6(Mixto Informal)	7(Consumo)	8(Vivienda)
    - ctipper
        1(Persona)	2(Empresa)
    - ctipcal
        E(Exponencial)	S(Sin Calculo)
    - condicionCredito
        J(Judicial)	Z(Castigado)
    - cmarjud
        J(Judicial)	P(Pre Judicial)	S(Simple)
    - cCodOfi
        1,3,4,... (38 oficinas)
    - cuentaUnica
        1(Cuenta unica por cliente) 0(Esta solo es 1 de las cuentas del cliente)
    - clienteMoroso
        1(Último pago que efectuó fue después de la fecha límite) 0(Último pago efectuado antes de la fecha límite)

# Graficos de Visualización

In [99]:
dfGraphics = df.copy()
dfGraphics.tipoCredito.replace(['N', 'R', 'U'], ['Nuevo', 'Recurrente', 'Recuperado'], inplace=True)
dfGraphics.Moneda.replace(['1', '2'], ['Soles', 'Dolares'], inplace=True)
dfGraphics.modalidadCredito.replace(['1', '3', '5'], ['Credito', 'Ordinario', 'Paralelo'], inplace=True)
dfGraphics.sectorEconomico.replace(['01', '02', '03', '04', '05', '06', '07'], ['Comercio', 'Industria', 'Servicios', 'Agricola', 'Ganadero', 'Pesquero', 'Minero'], inplace=True)
dfGraphics.destinoCredito.replace(['1', '2', '3', '4', '5', '6', '7', '8'], ['Formal', 'Informal', 'Formal', 'Informal', 'Formal', 'Informal', 'Hogar', 'Hogar'], inplace=True)
dfGraphics.ctipper.replace(['1', '2'], ['Persona', 'Empresa'], inplace=True)
dfGraphics.ctipcal.replace(['E', 'S'], ['Exponencial', 'Simple'], inplace=True)
dfGraphics.condicionCredito.replace(['J', 'Z'], ['Judicial', 'Castigado'], inplace=True)
dfGraphics.cmarjud.replace(['J', 'P', 'S'], ['Judicial', 'PreJudicial', 'Simple'], inplace=True)
"""
dfGraphics.cCodOfi.replace([
     '1',  '2',  '3',  '4',  '5',  '6',  '7',  '8',  '9', 
    '10', '11', '12', '13', '14', '15', '16', '17', '18', '19',
    '20', '22', '24', '25', '26', '27', '28', '29', '57', '59',
    '30', '31', '32', '33', '34', '35', '36', '37', '38'
     ], [
    'Zona1', 'Zona1', 'Zona1', 'Zona1', 'Zona1', 'Zona1', 'Zona1', 'Zona1', 'Zona1', 
    'Zona2', 'Zona2', 'Zona2', 'Zona2', 'Zona2', 'Zona2', 'Zona2', 'Zona2', 'Zona2', 'Zona2',
    'Zona3', 'Zona3', 'Zona3', 'Zona3', 'Zona3', 'Zona3', 'Zona3', 'Zona3', 'Zona3', 'Zona3', 
    'Zona4', 'Zona4', 'Zona4', 'Zona4', 'Zona4', 'Zona4', 'Zona4', 'Zona4', 'Zona4'
    ], inplace=True)
"""
dfGraphics.cuentaUnica.replace(['0', '1'], ['Multi Cuenta', 'Cuenta Unica'], inplace=True)
dfGraphics.clienteMoroso.replace(['0', '1'], ['Cliente Moroso', 'Cliente Unica'], inplace=True)
dfGraphics.esDeudor.replace([0, 1], ['No', 'Si'], inplace=True)

In [101]:
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib notebook
g = sns.catplot(x="Moneda", y="montoApertura",
                 hue="tipoCredito", col="esDeudor",
                 data=dfGraphics, kind="bar",
                 height=4, aspect=.7)
plt.show()

<IPython.core.display.Javascript object>

In [106]:
"""
g = sns.catplot(x="cCodOfi", y="nTasEfe",
                 hue="ctipcal", col="esDeudor",
                 data=dfGraphics, kind="bar",
                 height=4, aspect=.7)
plt.show()
"""
sns.jointplot(x="montoApertura", y="capitalPagado", data=df, kind="kde");
#https://seaborn.pydata.org/generated/seaborn.jointplot.html#seaborn.jointplot

<IPython.core.display.Javascript object>

In [107]:
g = sns.catplot(x="tipoCredito", y="montoApertura",
                 hue="esDeudor", col="sectorEconomico",
                 data=dfGraphics, kind="bar",
                 height=4, aspect=.7)
plt.show()

<IPython.core.display.Javascript object>

In [108]:
def hexbin(x, y, color, **kwargs):
    cmap = sns.light_palette(color, as_cmap=True)
    plt.hexbin(x, y, gridsize=15, cmap=cmap, **kwargs)

with sns.axes_style("dark"):
    g = sns.FacetGrid(dfGraphics, hue="esDeudor", col="esDeudor", height=4)
g.map(hexbin, "montoApertura", "numeroDeCuotas");#, extent=[0, 50, 0, 10]
plt.show()

<IPython.core.display.Javascript object>

In [109]:
g = sns.FacetGrid(dfGraphics, col="destinoCredito", hue="esDeudor")
g.map(plt.scatter, "montoApertura", "numeroDeCuotas", alpha=.7)
g.add_legend();

<IPython.core.display.Javascript object>

In [110]:
g = sns.FacetGrid(dfGraphics, hue="esDeudor", palette="Set1", height=5, hue_kws={"marker": ["^", "v"]})
g.map(plt.scatter, "montoApertura", "numeroDeCuotas", s=100, linewidth=.5, edgecolor="white")
g.add_legend();
plt.show()

<IPython.core.display.Javascript object>

# Predicción y Evaluación del Modelo

In [16]:
dfTrain = df.copy()
dfTrain['tcNuevo']=(dfTrain.tipoCredito=='N').astype(int)
dfTrain['tcRecurrente']=(dfTrain.tipoCredito=='R').astype(int)
dfTrain['monedaSol']=(dfTrain.Moneda=='1').astype(int)
dfTrain['modCredito']=(dfTrain.modalidadCredito=='1').astype(int)
dfTrain['modOrdinario']=(dfTrain.modalidadCredito=='3').astype(int)
dfTrain['seBajo']=(dfTrain.sectorEconomico.isin(['01','02','03'])).astype(int)
dfTrain['seMedio']=(dfTrain.sectorEconomico.isin(['04','05'])).astype(int)
dfTrain['dcFormal']=(dfTrain.destinoCredito.isin(['1','3','5'])).astype(int)
dfTrain['dcInformal']=(dfTrain.destinoCredito.isin(['2','4','6'])).astype(int)
dfTrain['esPersona']=(dfTrain.ctipper=='1').astype(int)
dfTrain['esExponencial']=(dfTrain.ctipcal=='E').astype(int)
dfTrain['esCondJudicial']=(dfTrain.condicionCredito=='J').astype(int)
dfTrain['marcoJudicial']=(dfTrain.cmarjud=='J').astype(int)
dfTrain['marcoPreJudicial']=(dfTrain.cmarjud=='P').astype(int)
#display(dfTrain.cCodOfi.unique())
dfTrain['cuentaUnica']=(dfTrain.cuentaUnica=='1').astype(int)
dfTrain['clienteMoroso']=(dfTrain.clienteMoroso=='1').astype(int)
dfTrain.drop(['tipoCredito', 'Moneda', 'sectorEconomico', 'condicionCredito', 
    'modalidadCredito', 'destinoCredito', 'ctipper', 'ctipcal', 'cmarjud'], axis=1, inplace=True)
dfTrain.esDeudor.replace(['True', 'False'], ['Si', 'No'], inplace=True)

__Guardar los Datos Filtrados__

In [28]:
writer = pd.ExcelWriter('dataFiltrada.xlsx')
dfTrain.to_excel(writer,'Hoja1')
writer.save()

__Dividimos la Data aleatoriamente en 80% para entrenar y 20% para evaluar__

In [75]:
from sklearn.model_selection import train_test_split
seed = 100
y = dfTrain.esDeudor
X = dfTrain.drop(['esDeudor'], axis=1, inplace=False)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=seed)

In [77]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
clf = DecisionTreeClassifier(random_state=seed)
precision = cross_val_score(clf, X, y, cv=10)
precision

array([0.99867286, 0.99635036, 0.99900431, 0.99900431, 0.99701294,
       1.        , 0.99933599, 0.99634794, 0.99800797, 0.99833997])

In [79]:
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

In [78]:
import itertools
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')


In [98]:
cnf_matrix = confusion_matrix(y_test, y_pred)
np.set_printoptions(precision=2)
plot_confusion_matrix(cnf_matrix, classes=y.unique(), #normalize=True,
                      title='Matriz de Correlación')

plt.show()

Confusion matrix, without normalization
[[5093    5]
 [   5 3936]]


<IPython.core.display.Javascript object>