In [None]:
# Cargar funciones de la librería de python data analysis
import pandas as pd 

# Leer csv con datos y cargar en el dataframe data
data = pd.read_csv("data/creditos.csv") 

# Preview de las 5 primeras filas de data 
data.head()

In [None]:
import numpy as np

# calcular variable edad a partir de fecha de solicitud - fecha de nacimiento
data['fechaHora'] = pd.to_datetime(data['fechaHora'])
data['nacimiento'] = pd.to_datetime(data['nacimiento'])
data['edad'] = ((data['fechaHora']-data['nacimiento'])/np.timedelta64(1,'Y')).astype(int)

# seleccionar variables de la solicitud, sistema financiero y target, descartar variables pos aprobación
df1 = data.iloc[:,2:3]
df2 = data.iloc[:,83:84]
df3 = data.iloc[:,4:68]
df4 = data.iloc[:,82:83]

# Unificar en un dataframe filtrado
df = pd.concat([df1,df2,df3,df4], axis=1)
df.head()

In [None]:
# Identificar variables categoricas
df.dtypes[df.dtypes=='object']
#df["nacionalidad"].unique()

In [None]:
# cargar codificador por etiquetas (LabelEncoder)
from sklearn import preprocessing

# Codificar cada variable categorica con su propio encoder
leNacionalidad = preprocessing.LabelEncoder()
df["nacionalidad"] = leNacionalidad.fit_transform(df["nacionalidad"])
leSexo = preprocessing.LabelEncoder()
df["sexo"] = leSexo.fit_transform(df["sexo"].astype(str))
leEstCivil = preprocessing.LabelEncoder()
df["est_civil"] = leEstCivil.fit_transform(df["est_civil"].astype(str))
leOcupCargo = preprocessing.LabelEncoder()
df["ocup_cargo"] = leOcupCargo.fit_transform(df["ocup_cargo"].astype(str))
leClienteNoR = preprocessing.LabelEncoder()
df["cliente_nuevo_o_recurrente"] = leClienteNoR.fit_transform(df["cliente_nuevo_o_recurrente"])
leTieneVC = preprocessing.LabelEncoder()
df["tiene_visa_classic"] = leTieneVC.fit_transform(df["tiene_visa_classic"])
leTieneVG = preprocessing.LabelEncoder()
df["tiene_visa_gold"] = leTieneVG.fit_transform(df["tiene_visa_gold"])
leTieneMG = preprocessing.LabelEncoder()
df["tiene_mc_gold"] = leTieneMG.fit_transform(df["tiene_mc_gold"])
leTieneFC = preprocessing.LabelEncoder()
df["tiene_fc"] = leTieneFC.fit_transform(df["tiene_fc"])
leTieneMC = preprocessing.LabelEncoder()
df["tiene_mc_classic"] = leTieneMC.fit_transform(df["tiene_mc_classic"])
leFaja = preprocessing.LabelEncoder()
df["respuesta_iconf_faja_score"] = leFaja.fit_transform(df["respuesta_iconf_faja_score"].astype(str))
leResultadoFinal = preprocessing.LabelEncoder()
df["resultadoFinal"] = leResultadoFinal.fit_transform(df["resultadoFinal"])

df.head()

In [None]:
# Verificar inversa de codificacion
#leFaja.inverse_transform(df["respuesta_iconf_faja_score"])
leResultadoFinal.inverse_transform(df["resultadoFinal"])

In [None]:
#Import svm model
from sklearn.neighbors import KNeighborsClassifier
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn import metrics

# Split en train y test
X = df.iloc[:,0:66]
y = df['resultadoFinal']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

# Normalizacion a [0-1]
min_max_scaler_train = preprocessing.MinMaxScaler()
xNormTrain = pd.DataFrame(min_max_scaler_train.fit_transform(X_train.values))
min_max_scaler_test = preprocessing.MinMaxScaler()
xNormTest = pd.DataFrame(min_max_scaler_test.fit_transform(X_test.values))

#Create a svm Classifier
clf = KNeighborsClassifier(n_neighbors=20, weights='distance')

#Train the model using the training sets
clf.fit(xNormTrain, y_train)

#Predict the response for test dataset
y_pred = clf.predict(xNormTest)

print("Train Score:",clf.score(xNormTrain, y_train))
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))
metrics.precision_recall_fscore_support(y_test, y_pred, average=None)

In [None]:
# Calcular matriz de confusion
pd.crosstab(y_test, y_pred, 
            rownames=['actual'], 
            colnames=['pred'], margins=False, margins_name="Total")

In [None]:
# Obtener scores de clasificación en las clases 0 o 1
y_scores = clf.predict_proba(xNormTest)

# Crear dataframe de predicciones con scores, filtrar segun criterio de aprobacion (80%)
dp = pd.DataFrame(zip(y_test,y_pred,y_scores[:,0],y_scores[:,1]), columns=['actual','pred','prob_yes','prob_no'])

dp
#dp[dp['prob_yes'] >= 0.80]