<img src="banner/banner_proyecto.png" style="width:1000px;">

# <b style="color:#152F6E"> PREDICCIÓN DE ACEPTACIÓN DE UNA SOLICITUD DE TARJETA DE CRÉDITO </b>

<h1 style="font-size:20px;font-family:verdana">MOTIVACIÓN</h1>

<p style="font-family:bold">Antiguamente e incluso sigue existiendo en la actualidad las industrias bancarias reciben miles de solicitudes de solicitud de tarjeta de crédito. Revisar cada solicitud manualmente puede llevar demasiado tiempo y también ser es susceptible a errores humanos. Por ende con este proyecto pretendemos realizar un predictor automático de aprobación de tarjetas de crédito utilizando técnicas de aprendizaje automático.</p>


Este notebook es basado en Sayak Paul's Datacamp Project.

1.Primero, cargamos y vemos el conjunto de datos. Descubrimos que dado que estos datos son confidenciales, el contribuyente del conjunto de datos ha anonimizado los nombres de las funciones.

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import warnings
warnings.filterwarnings("ignore")

In [3]:


# carga dataset
cc_apps = pd.read_csv("dataset/cc_approvals.data",header=None)

# cc_apps2 = CC_data[:,:]
cc_apps2 = cc_apps.copy()

# Inspeccionar datos
print(cc_apps.head())




IOError: File datasets/crx.data does not exist

## <span style="color:orange">Renombrando las columnas</span>: 
Las columnas no estaban identificadas con fines de privacidad en una publicación de Ryan Kuhn muestra que las columnas probablemente sean Sexo, Edad, Deuda, Casado, Cliente bancario, Nivel educativo, Etnia, Años Empleado, Predeterminado, Empleado, CreditScore, DriversLicense, Citizen, ZipCode, Income y finalmente el ApprovalStatus. Entonces cambiamos el nombre de las columnas del DataFrame.

In [None]:
cc_apps.columns = ['Gender', 'Age', 'Debt', 'Married',
              'BankCustomer', 'EducationLevel', 'Ethnicity',
              'YearsEmployed', 'PriorDefault',
              'Employed', 'CreditScore', 'DriversLicense',
              'Citizen', 'ZipCode', 'Income', 'ApprovalStatus']
cc_apps2.columns = ['Gender', 'Age', 'Debt', 'Married',
              'BankCustomer', 'EducationLevel', 'Ethnicity',
              'YearsEmployed', 'PriorDefault',
              'Employed', 'CreditScore', 'DriversLicense',
              'Citizen', 'ZipCode', 'Income', 'ApprovalStatus']

cc_apps.head()


### Inspeccionando las solicitudes 
 


In [None]:

# Imprimir resumen de estadísticas
cc_apps_description = cc_apps.describe()
print(cc_apps_description)

print("\n")

# imprime informacion del dataframe
cc_apps_info = cc_apps.info()
print(cc_apps_info)

print("\n")

# Inspeccionar valores perdidos en el conjunto de datos
cc_apps.tail(17)

Como podemos ver desde nuestro primer vistazo a los datos, el conjunto de datos tiene una combinación de características numéricas y no numéricas. Esto se puede solucionar con algo de preprocesamiento, pero antes de hacerlo, anlizamos un poco más sobre el conjunto de datos  para ver si habian otros problemas del conjunto de datos que debian corregirse.

### Manejo de los valores faltantes (parte1)

El conjunto de datos tiene valores faltantes. Los valores que faltan en el conjunto de datos están etiquetados con '?', Que se puede ver en la salida de la última celda.
Se remplaza temporalmente estos signos de interrogación con NaN

In [None]:
import numpy as np

# Inspeccionar valores perdidos en el conjunto de datos
print(cc_apps.isnull().values.sum())

# remplaza '?'con NaN
cc_apps.replace('?', np.NaN, inplace = True)



# Inspeccione los valores faltantes nuevamente
cc_apps.tail(17)



In [None]:
# convierte Age a numerico
cc_apps["Age"] = pd.to_numeric(cc_apps["Age"])

### Manejo de los valores faltantes (parte2)


Para los valores perdidos se remplazan los valores faltantes con una estrategia llamada imputación media.

In [None]:
# Imputar los valores faltantes con imputación media
cc_apps.fillna(cc_apps.mean(), inplace=True)

# cuenta el numero de NaNs en el dataset y

print(cc_apps.isnull().values.sum())


In [None]:
cc_apps.isnull().sum()

### 3. Descripción y distribución de datos

In [None]:

def plotDistPlot(col):
    """Flexibly plot a univariate distribution of observation"""
    sns.distplot(col)
    plt.show()
plotDistPlot(cc_apps['Age'])
plotDistPlot(cc_apps['Debt'])
plotDistPlot(cc_apps['YearsEmployed'])
plotDistPlot(cc_apps['CreditScore'])
plotDistPlot(cc_apps['Income'])

In [None]:

#matriz de correlación
corrmat = cc_apps.corr()
f, ax = plt.subplots(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.8, square=True);

In [None]:
#scatterplot
sns.set()
cols = ['Age', 'Income', 'CreditScore', 'Debt', 'YearsEmployed']
sns.pairplot(cc_apps[cols], size = 2.5)
plt.show();

In [None]:

sns.countplot(data = cc_apps, x = 'ApprovalStatus')

### Manejo de los valores faltantes (parte3)
Se remplazan los valores faltantes con los valores más frecuentes,como están presentes en las columnas respectivas. Esta es una buena práctica cuando se trata de imputar valores faltantes para datos categóricos en general.

In [None]:
cc_apps.isnull().sum()

In [None]:
# Iterar sobre cada columna de cc_apps
print(cc_apps.info())
for col in cc_apps.columns:
    # Compruebe si la columna es de tipo de objeto
    if cc_apps[col].dtypes == 'object':
        # Imputar con el valor más frecuente
        cc_apps[col] = cc_apps[col].fillna(cc_apps[col].value_counts().index[0])
        # Para columnas numéricas, reemplace nan con la media.
    else:
        cc_apps[col] = cc_apps[col].fillna(cc_apps[col].mean())

In [None]:
cc_apps.isnull().sum()

In [None]:
from sklearn.preprocessing import LabelEncoder

#Instanciar LabelEncoder

le = LabelEncoder()

# Iterar sobre todos los valores de cada columna y extraer sus tipos
for col in cc_apps.columns:
    # Compare si el dtype es objcet
    if cc_apps[col].dtype=='object':
    # Use LabelEncoder para hacer la transformación numérica
        cc_apps[col]=le.fit_transform(cc_apps[col])

In [None]:
cc_apps.tail(15)

## Modelado y evaluación de datos

In [None]:




# Eliminando la característica que no son importante 
# Descarte las características 'DriversLicense', 'ZipCode' y convierte el DataFrame en una matriz NumPy
cc_apps = cc_apps.drop(['DriversLicense', 'ZipCode'], axis=1)
cc_apps = cc_apps.values

# Crear una nueva variable para ingresar características y etiquetas
# Separe las características y etiquetas en variables separadas
X,y = cc_apps[:,0:13], cc_apps[:,13]


from sklearn.preprocessing import MinMaxScaler

#  Instancia MinMaxScaler y se usa para reescalar
scaler = MinMaxScaler(feature_range=(0,1))
rescaledX = scaler.fit_transform(X)





### Dividiendo el conjunto de datos en train & test sets.

In [None]:
from sklearn.model_selection import train_test_split


X_train, X_test, y_train, y_test = train_test_split(rescaledX,
                                                    y,
                                                    test_size=0.33,
                                                    random_state=42)




#### Ajustar un modelo de regresión logística al conjunto de trains.

In [None]:
from sklearn.linear_model import LogisticRegression

# Instanciar un clasificador LogisticRegression con valores de parámetros predeterminados
logreg = LogisticRegression()

#Ajuste el registro al conjunto de train set

logreg.fit(X_train,y_train)

#### Haciendo predicciones y evaluando el rendimiento 


In [None]:

from sklearn.metrics import confusion_matrix

# Usa logreg para predecir instancias del conjunto de prueba y almacenarlo
y_pred = logreg.predict(X_test)

# Obtenga el puntaje de precisión del modelo logreg e imprímalo
print("Accuracy of logistic regression classifier: ", logreg.score(X_test, y_test))

# Imprime la matriz de confusión del modelo logreg
confusion_matrix(y_test, y_pred)

In [None]:
#Dividiendo el conjunto de datos en train & test sets
X_train, X_test, y_train, Y_test = train_test_split(X,
                                y,
                                test_size=0.2,
                                random_state=123)

### Escalando los datos

Dado que los datos varían de una columna a otra, podemos usar un escalador para reducir este efecto, porque algunos modelos son más sensibles a la variación entre los datos. Para hacer esto, importamos Scaler.

In [None]:
rescaledX_train = scaler.fit_transform(X_train)
rescaledX_test = scaler.transform(X_test)
rescaledX = scaler.transform(X)

###  Ajuste de  Random Forest Classifier

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
rf = RandomForestClassifier(n_estimators=500)
rf.fit(rescaledX_train, y_train)
y_pred = rf.predict(rescaledX_test)
print("Random Forest classifier has accuracy of: ", rf.score(rescaledX_test, Y_test))
# Evalua la confusion_matrix
confusion_matrix(Y_test, y_pred)

In [None]:

importances = rf.feature_importances_
std = np.std([tree.feature_importances_ for tree in rf.estimators_],
             axis=0)
indices = np.argsort(importances)[::-1]


print("Feature ranking:")

for f in range(X.shape[1]):
    print("%d. feature %d (%f)" % (f + 1, indices[f], importances[indices[f]]))

# Traza las características importantes del forest
plt.figure()
plt.title("Feature importances")
plt.bar(range(X.shape[1]), importances[indices],
       color="r", yerr=std[indices], align="center")
plt.xticks(range(X.shape[1]), indices)
plt.xlim([-1, X.shape[1]])
plt.show()

## ¿Qué atributo ha jugado el papel más importante en la decisión de solicitud de tarjeta de crédito?

In [None]:
cc_apps2= cc_apps2.drop(['ApprovalStatus'], axis=1)

features = cc_apps2.columns
importances = rf.feature_importances_
indices = np.argsort(importances)

plt.title('Feature Importances')
plt.barh(range(len(indices)), importances[indices], color='b', align='center')
plt.yticks(range(len(indices)), [features[i] for i in indices])
plt.xlabel('Relative Importance')
plt.show()

Optimización de resultados: ajuste de hiperparámetros

Podemos usar GridSearchCV para realizar ajustes de hiperparámetros en el Random Forest  y una cross validation para evitar el sobreajuste. El GridSearchCV realiza el cálculo utilizando todas las combinaciones entre la cuadrícula de parámetros.

Hace una validación cruzada también.

### Uso de redes neronales 

In [None]:
from sklearn.model_selection import train_test_split


X_train, X_test, y_train, y_test = train_test_split(rescaledX,
                                                    y,
                                                    test_size=0.33,
                                                    random_state=42)


In [None]:
import tensorflow as tf
from tensorflow import keras

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
model = keras.models.Sequential([
    keras.layers.Dense(552 ,input_dim=13),
    keras.layers.Dense(200, activation=tf.nn.relu),
    keras.layers.Dense(200, activation=tf.nn.relu),
    keras.layers.Dense(200, activation=tf.nn.relu),
    keras.layers.Dense(2, activation=tf.nn.softmax)
])

In [None]:
model.compile(optimizer=tf.train.AdamOptimizer(), 
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

In [None]:
model.fit(X_train, y_train, epochs=50)

In [None]:
test_loss, test_acc = model.evaluate(X_test, y_test)

print('Test accuracy:', test_acc)

#### Grid searching, haciendo que el modelo funcione mejor

In [None]:
from sklearn.model_selection import GridSearchCV

# Define la cuadrícula de valores para tol y max_iter
tol = [0.01, 0.001, 0.0001]
max_iter = [100, 150, 200]

# Cree un diccionario donde tol y max_iter son claves y las listas de sus valores son valores correspondientes
param_grid = dict(tol=tol, max_iter=max_iter)
print(param_grid)

#### Encontrar el mejor modelo de rendimiento



In [None]:
# Instancia GridSearchCV con los parámetros requeridos
grid_model = GridSearchCV(estimator=logreg, param_grid=param_grid, cv=5)

# Fit data a grid_model
grid_model_result = grid_model.fit(rescaledX, y)

# resumen de resultados
best_score, best_params = grid_model_result.best_score_,grid_model_result.best_params_
print("Best: %f using %s" % (best_score, best_params))

Al construir este predictor de tarjeta de crédito, abordamos algunos de los pasos de preprocesamiento más conocidos, como el escalado, la codificación de etiquetas y la imputación de valores perdidos. Terminamos con algo de aprendizaje automático para predecir si la solicitud de una persona para una tarjeta de crédito sería aprobada o no, dada una informacion acerca de la persona.