# PROYECTO: Predicting Credit Card Approvals
_Cree un modelo de aprendizaje automático para predecir si se aprobará una solicitud de tarjeta de crédito._

> ****

**Project Description**

Los bancos comerciales reciben muchas solicitudes de tarjetas de crédito. Muchos de ellos son rechazados por muchas razones, como saldos elevados de préstamos, bajos niveles de ingresos o demasiadas consultas sobre el informe crediticio de una persona, por ejemplo. El análisis manual de estas aplicaciones es mundano, propenso a errores y requiere mucho tiempo (¡y el tiempo es dinero!). Afortunadamente, esta tarea se puede automatizar con el poder del aprendizaje automático y casi todos los bancos comerciales lo hacen hoy en día. En este proyecto, creará un predictor automático de aprobación de tarjetas de crédito utilizando técnicas de aprendizaje automático, tal como lo hacen los bancos reales.

El conjunto de datos utilizado en este proyecto es el [conjunto de datos de aprobación de tarjetas de crédito](http://archive.ics.uci.edu/ml/datasets/credit+approval) del Repositorio de aprendizaje automático de [UCI](http://archive.ics.uci.edu/ml/index.php).


> ***

**Project Tasks**
1. Credit card applications
2. Inspecting the applications
3. Handling the missing values (part i)
4. Handling the missing values (part ii)
5. Handling the missing values (part iii)
6. Preprocessing the data (part i)
7. Splitting the dataset into train and test sets
8. Preprocessing the data (part ii)
9. Fitting a logistic regression model to the train set
10. Making predictions and evaluating performance
11. Grid searching and making the model perform better
12. Finding the best performing model

---

Recursos importantes:


*   [Pandas Cheatsheet](https://www.datacamp.com/community/blog/python-pandas-cheat-sheet)
*   [NumPy Cheat Sheet](https://www.datacamp.com/community/blog/python-numpy-cheat-sheet)
* [Preprocessing in Data Science (Part 3)](https://www.datacamp.com/community/tutorials/preprocessing-in-data-science-part-3-scaling-synthesized-data)
* [Preprocessing in Data Science (Part 2)](https://www.datacamp.com/community/tutorials/preprocessing-in-data-science-part-2-centering-scaling-and-logistic-regression)
* [Preprocessing in Data Science (Part 1)](https://www.datacamp.com/community/tutorials/preprocessing-in-data-science-part-1-centering-scaling-and-knn)
* Google's [Machine Learning Crash Course](https://developers.google.com/machine-learning/crash-course/)



## 1. Credit card applications

**(Solicitudes de tarjetas de crédito)**

<p> <img src = "https://assets.datacamp.com/production/project_558/img/credit_card.jpg" alt = "Tarjeta de crédito en mano" height = 200px> </p>
<p> Usaremos el <a href="http://archive.ics.uci.edu/ml/datasets/credit+approval"> conjunto de datos de aprobación de tarjetas de crédito </a> del Repositorio de aprendizaje automático de UCI. La estructura de este cuaderno es la siguiente: </p>
<ul>
<li> Primero, comenzaremos cargando y viendo el conjunto de datos. </li>
<li> Veremos que el conjunto de datos tiene una combinación de características numéricas y no numéricas, que contiene valores de diferentes rangos, además de que contiene una cantidad de entradas faltantes. </li>
<li> Tendremos que preprocesar el conjunto de datos para asegurarnos de que el modelo de aprendizaje automático que elegimos pueda hacer buenas predicciones. </li>
<li> Una vez que nuestros datos estén en buena forma, haremos un análisis de datos exploratorio para construir nuestras intuiciones. </li>
<li> Por último, crearemos un modelo de aprendizaje automático que puede predecir si se aceptará la solicitud de una persona para obtener una tarjeta de crédito. </li>
</ul>
<p> Primero, cargar y ver el conjunto de datos. Descubrimos que, dado que estos datos son confidenciales, el contribuyente del conjunto de datos ha anonimizado los nombres de las funciones. </p>

In [99]:
# Importando modulos
import pandas as pd
import numpy as np

# Cargar dataset
cc_apps = pd.read_csv('https://raw.githubusercontent.com/MayumyCH/dc_predicting_credit_card_approvals_with_python/main/dataset/cc_approvals.data',header=None)

cc_apps.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,b,30.83,0.0,u,g,w,v,1.25,t,t,1,f,g,202,0,+
1,a,58.67,4.46,u,g,q,h,3.04,t,t,6,f,g,43,560,+
2,a,24.5,0.5,u,g,q,h,1.5,t,f,0,f,g,280,824,+
3,b,27.83,1.54,u,g,w,v,3.75,t,t,5,t,g,100,3,+
4,b,20.17,5.625,u,g,w,v,1.71,t,f,0,f,s,120,0,+


## 2. Inspecting the applications
**(Inspección de las aplicaciones)**
<p> El resultado puede parecer un poco confuso a primera vista, pero intentemos descubrir las características más importantes de una aplicación de tarjeta de crédito. Las funciones de este conjunto de datos se han anonimizado para proteger la privacidad, pero <a href="http://rstudio-pubs-static.s3.amazonaws.com/73039_9946de135c0a49daa7a0a9eda4a67a72.html"> este blog </a>  nos brinda una bonita buena descripción de las características probables. Las características probables en una aplicación de tarjeta de crédito típica son <code> Género </code>, <code> Edad </code>, <code> Debt </code>, <code> Married </code>, <code> BankCustomer </code>, <code> EducationLevel </code>, <code> Ethnicity </code>, <code> YearsEmployed </code>, <code> PriorDefault </code>, <code> Employed </code>, <code> CreditScore </code>, <code> DriversLicense </code>, <code> Citizen </code>, <code> ZipCode </code>, <code> Income </code> y finalmente el <code> ApprovalStatus </code>. Esto nos da un buen punto de partida y podemos mapear estas características con respecto a las columnas en la salida. </p>
<p> Como podemos ver en nuestro primer vistazo a los datos, el conjunto de datos tiene una combinación de características numéricas y no numéricas. Esto se puede solucionar con un poco de procesamiento previo, pero antes de hacerlo, aprendamos un poco más sobre el conjunto de datos para ver si hay otros problemas del conjunto de datos que deban solucionarse. </p>

In [100]:
# Imprimir resumen de estadísticas
cc_apps_description = cc_apps.describe()
print(cc_apps_description)

print("\n")

# Imprimir información de DataFrame
cc_apps_info = cc_apps.info()
print(cc_apps_info)

print("\n")

# Inspeccionar los valores faltantes en el conjunto de datos
cc_apps.tail(17)

               2           7          10             14
count  690.000000  690.000000  690.00000     690.000000
mean     4.758725    2.223406    2.40000    1017.385507
std      4.978163    3.346513    4.86294    5210.102598
min      0.000000    0.000000    0.00000       0.000000
25%      1.000000    0.165000    0.00000       0.000000
50%      2.750000    1.000000    0.00000       5.000000
75%      7.207500    2.625000    3.00000     395.500000
max     28.000000   28.500000   67.00000  100000.000000


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 690 entries, 0 to 689
Data columns (total 16 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       690 non-null    object 
 1   1       690 non-null    object 
 2   2       690 non-null    float64
 3   3       690 non-null    object 
 4   4       690 non-null    object 
 5   5       690 non-null    object 
 6   6       690 non-null    object 
 7   7       690 non-null    float64
 8   8       690 no

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
673,?,29.5,2.0,y,p,e,h,2.0,f,f,0,f,g,256,17,-
674,a,37.33,2.5,u,g,i,h,0.21,f,f,0,f,g,260,246,-
675,a,41.58,1.04,u,g,aa,v,0.665,f,f,0,f,g,240,237,-
676,a,30.58,10.665,u,g,q,h,0.085,f,t,12,t,g,129,3,-
677,b,19.42,7.25,u,g,m,v,0.04,f,t,1,f,g,100,1,-
678,a,17.92,10.21,u,g,ff,ff,0.0,f,f,0,f,g,0,50,-
679,a,20.08,1.25,u,g,c,v,0.0,f,f,0,f,g,0,0,-
680,b,19.5,0.29,u,g,k,v,0.29,f,f,0,f,g,280,364,-
681,b,27.83,1.0,y,p,d,h,3.0,f,f,0,f,g,176,537,-
682,b,17.08,3.29,u,g,i,v,0.335,f,f,0,t,g,140,2,-


## 3. Handling the missing values (part i)
**(Manejo de los valores perdidos (parte i))**
<p> Hemos descubierto algunos problemas que afectarán el rendimiento de nuestros modelos de aprendizaje automático si no se modifican: </p>
<ul>
<li> Nuestro conjunto de datos contiene datos numéricos y no numéricos (específicamente datos que son de los tipos <code> float64 </code>, <code> int64 </code> y <code> object </code>). Específicamente, las características 2, 7, 10 y 14 contienen valores numéricos (de tipos float64, float64, int64 e int64 respectivamente) y todas las demás características contienen valores no numéricos. </li>
<li> El conjunto de datos también contiene valores de varios rangos. Algunas características tienen un rango de valores de 0 a 28, algunas tienen un rango de 2 a 67 y algunas tienen un rango de 1017 a 100000. Aparte de estas, podemos obtener información estadística útil (como <code> mean </code> , <code> max </code> y <code> min </code>) sobre las características que tienen valores numéricos. </li>
<li> Por último, el conjunto de datos tiene valores faltantes, de los que nos ocuparemos en esta tarea. Los valores faltantes en el conjunto de datos están etiquetados con "?", Que se puede ver en la salida de la última celda. </li>
</ul>
<p> Ahora, reemplacemos temporalmente estos signos de interrogación de valor que faltan por NaN. </p> 

In [101]:
# Inspecciona los valores faltantes en el conjunto de datos
print(cc_apps.isnull().sum())

# Reemplace el '?' Por NaN
cc_apps = cc_apps.replace('?',np.nan)

# Inspeccione los valores perdidos nuevamente
cc_apps.tail(17)

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
dtype: int64


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
673,,29.5,2.0,y,p,e,h,2.0,f,f,0,f,g,256,17,-
674,a,37.33,2.5,u,g,i,h,0.21,f,f,0,f,g,260,246,-
675,a,41.58,1.04,u,g,aa,v,0.665,f,f,0,f,g,240,237,-
676,a,30.58,10.665,u,g,q,h,0.085,f,t,12,t,g,129,3,-
677,b,19.42,7.25,u,g,m,v,0.04,f,t,1,f,g,100,1,-
678,a,17.92,10.21,u,g,ff,ff,0.0,f,f,0,f,g,0,50,-
679,a,20.08,1.25,u,g,c,v,0.0,f,f,0,f,g,0,0,-
680,b,19.5,0.29,u,g,k,v,0.29,f,f,0,f,g,280,364,-
681,b,27.83,1.0,y,p,d,h,3.0,f,f,0,f,g,176,537,-
682,b,17.08,3.29,u,g,i,v,0.335,f,f,0,t,g,140,2,-


## 4. Handling the missing values (part ii)
**(Manejo de los valores perdidos (parte ii))**
<p> Reemplazamos todos los signos de interrogación con NaN. Esto nos ayudará en el próximo tratamiento de valor perdido que realizaremos. </p>
<p> Una pregunta importante que se plantea aquí es <em> ¿por qué le damos tanta importancia a los valores perdidos </em>? ¿No se pueden simplemente ignorar? Ignorar los valores perdidos puede afectar en gran medida el rendimiento de un modelo de aprendizaje automático. Si bien ignora los valores faltantes, nuestro modelo de aprendizaje automático puede perder información sobre el conjunto de datos que puede ser útil para su entrenamiento. Entonces, hay muchos modelos que no pueden manejar valores perdidos implícitamente, como LDA. </p>
<p> Entonces, para evitar este problema, vamos a imputar los valores faltantes con una estrategia llamada <b>imputación media</b>. </p>

In [102]:
# Imputar los valores perdidos con imputación media
cc_apps.fillna(cc_apps.mean(), inplace=True)

# Cuente la cantidad de NaN en el conjunto de datos para verificar
print(cc_apps.isnull().sum())

0     12
1     12
2      0
3      6
4      6
5      9
6      9
7      0
8      0
9      0
10     0
11     0
12     0
13    13
14     0
15     0
dtype: int64


## 5. Handling the missing values (part iii)
**(Manejo de los valores perdidos (parte iii))**
<p> Nos hemos ocupado con éxito de los valores faltantes presentes en las columnas numéricas. Todavía hay algunos valores faltantes para imputar para las columnas 0, 1, 3, 4, 5, 6 y 13. Todas estas columnas contienen datos no numéricos y por eso la estrategia de imputación media no funcionaría aquí. Esto necesita un tratamiento diferente. </p>
<p> Vamos a imputar estos valores perdidos con los valores más frecuentes presentes en las columnas respectivas. Esta es una <a href="https://www.datacamp.com/community/tutorials/categorical-data"> buena práctica </a> cuando se trata de imputar valores faltantes para datos categóricos en general. </p>

In [103]:
# Iterar sobre cada columna de cc_apps
for col in cc_apps:
    # Compruebe si la columna es de tipo de objeto
    if cc_apps[col].dtypes == 'object':
        # Imputar con el valor más frecuente
        cc_apps = cc_apps.fillna(cc_apps[col].value_counts().index[0])

# Cuente el número de NaN en el conjunto de datos e imprima los recuentos para verificar
print(cc_apps.isnull().sum())

0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
dtype: int64


## 6. Preprocessing the data (part i)
**(Procesamiento previo de los datos (parte i))**
<p> Los valores faltantes ahora se gestionan correctamente. </p>
<p> Todavía se necesita un preprocesamiento de datos menor pero esencial antes de continuar con la construcción de nuestro modelo de aprendizaje automático. Vamos a dividir estos pasos restantes de preprocesamiento en tres tareas principales: </p>
<ol>
<li> Convierta los datos no numéricos en numéricos. </li>
<li> Divida los datos en conjuntos de prueba y de tren. </li>
<li> Escale los valores de las funciones a un rango uniforme. </li>
</ol>
<p> Primero, convertiremos todos los valores no numéricos en valores numéricos. Hacemos esto porque no solo da como resultado un cálculo más rápido, sino que también muchos modelos de aprendizaje automático (como XGBoost) (y especialmente los desarrollados con scikit-learn) requieren que los datos estén en un formato estrictamente numérico. Haremos esto usando una técnica llamada <a href="http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html"> codificación de etiquetas (label encoding.)</a>. </p>

In [104]:
# Importar LabelEncoder
from sklearn.preprocessing import LabelEncoder

# Crear una instancia de LabelEncoder
le=LabelEncoder()

# Itere todos los valores de cada columna y extraiga sus dtypes
for col in cc_apps:
    # Compare si el dtype es un objeto
    if cc_apps[col].dtype == 'object':
    # Use LabelEncoder para hacer la transformación numérica
        cc_apps[col]=le.fit_transform(cc_apps[col])

## 7. Splitting the dataset into train and test sets
**(Dividir el conjunto de datos en conjuntos de prueba y de tren)**
<p> Hemos convertido correctamente todos los valores no numéricos en valores numéricos. </p>
<p> Ahora, dividiremos nuestros datos en conjuntos de trenes y conjuntos de pruebas para preparar nuestros datos para dos fases diferentes del modelado de aprendizaje automático: entrenamiento y pruebas. Idealmente, no se debe usar ninguna información de los datos de prueba para escalar los datos de entrenamiento o se debe usar para dirigir el proceso de entrenamiento de un modelo de aprendizaje automático. Por lo tanto, primero dividimos los datos y luego aplicamos la escala. </p>
<p> Además, funciones como <code> DriversLicense </code> y <code> ZipCode </code> no son tan importantes como las otras funciones del conjunto de datos para predecir las aprobaciones de tarjetas de crédito. Deberíamos descartarlos para diseñar nuestro modelo de aprendizaje automático con el mejor conjunto de características. En la literatura sobre ciencia de datos, esto a menudo se denomina <em> selección de características </em>. </p>

In [105]:
# Importar train_test_split
from sklearn.model_selection import train_test_split

# Elimine las características 11 y 13 y convierta el DataFrame en una matriz NumPy
cc_apps = cc_apps.drop([11,13], axis=1)
cc_apps = cc_apps.to_numpy()

# Segregar características y etiquetas en variables separadas 
X,y = cc_apps[:,0:12] , cc_apps[:,13]

# Dividir en trenes y conjuntos de prueba
X_train, X_test, y_train, y_test = train_test_split(X,
                                y,
                                test_size=0.33,
                                random_state=42)

## 8. Preprocessing the data (part ii)
**(Procesamiento previo de los datos (parte ii))**
<p> Los datos ahora se dividen en dos conjuntos separados: conjuntos de entrenamiento y de prueba, respectivamente. Solo nos queda un paso final de preprocesamiento de escalado antes de que podamos ajustar un modelo de aprendizaje automático a los datos. </p>
<p> Ahora, intentemos comprender qué significan estos valores escalados en el mundo real. Usemos <code> CreditScore </code> como ejemplo. El puntaje crediticio de una persona es su solvencia basada en su historial crediticio. Cuanto mayor sea este número, se considera que una persona es más confiable desde el punto de vista financiero. Por lo tanto, un <code> CreditScore </code> de 1 es el más alto, ya que estamos cambiando la escala de todos los valores al rango de 0-1. </p>

In [106]:
# Importar MinMaxScaler 
from sklearn.preprocessing import MinMaxScaler

# Cree una instancia de MinMaxScaler 
#   y úselo para cambiar la escala de X_train y X_test
scaler = MinMaxScaler(feature_range=(0,1))
rescaledX_train = scaler.fit_transform(X_train)
rescaledX_test = scaler.fit_transform(X_test)

## 9. Fitting a logistic regression model to the train set
**(Ajuste de un modelo de regresión logística al tren)**
<p> Básicamente, predecir si una solicitud de tarjeta de crédito será aprobada o no es una tarea de clasificación </a>.

Según UCI, nuestro conjunto de datos contiene más instancias que corresponden a Estado "Denegado" que las instancias correspondientes al estado "Aprobado". Específicamente, de 690 casos, hay 383 (55,5%) aplicaciones que fueron denegadas y 307 (44,5%) aplicaciones que fueron aprobadas. </p>
<p> Esto nos da un punto de referencia. Un buen modelo de aprendizaje automático debería poder predecir con precisión el estado de las aplicaciones con respecto a estas estadísticas. </p>
<p> ¿Qué modelo deberíamos elegir? Una pregunta que debe hacerse es: <em> ¿las características que afectan el proceso de decisión de aprobación de la tarjeta de crédito están correlacionadas entre sí? </em> Aunque podemos medir la correlación, eso está fuera del alcance de este portátil, por lo que confiaremos en nuestra intuición de que de hecho están correlacionados por ahora. Debido a esta correlación, aprovecharemos el hecho de que los modelos lineales generalizados funcionan bien en estos casos. Comencemos nuestro modelado de aprendizaje automático con un modelo de regresión logística (un modelo lineal generalizado). </p>

In [107]:
# Importamos LogisticRegression
from sklearn.linear_model import LogisticRegression

# Cree una instancia de un clasificador LogisticRegression 
#     con valores de parámetros predeterminados
logreg = LogisticRegression()

# Fit logreg en train set
logreg.fit(rescaledX_train,y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

## 10. Making predictions and evaluating performance
**(Hacer predicciones y evaluar el desempeño)**
<p> Pero, ¿qué tan bien funciona nuestro modelo? </p>
<p> Ahora evaluaremos nuestro modelo en el conjunto de prueba con respecto a la <a href="https://developers.google.com/machine-learning/crash-course/classification/accuracy"> precisión de clasificación </a> . Pero también echaremos un vistazo a la <a href="http://www.dataschool.io/simple-guide-to-confusion-matrix-terminology/"> matriz de confusión </a> del modelo. En el caso de predecir aplicaciones de tarjetas de crédito, es igualmente importante ver si nuestro modelo de aprendizaje automático es capaz de predecir el estado de aprobación de las aplicaciones como denegadas que originalmente fueron denegadas. Si nuestro modelo no está funcionando bien en este aspecto, entonces podría terminar aprobando la aplicación que debería haber sido aprobada. La matriz de confusión nos ayuda a ver el desempeño de nuestro modelo desde estos aspectos. </p>

In [108]:
# Importar confusion_matrix
from sklearn.metrics import confusion_matrix

# Use logreg para predecir instancias del conjunto de prueba y almacenarlo
y_pred = logreg.predict(rescaledX_test)

# Obtenga la puntuación de precisión del modelo logreg e imprímalo
print("Accuracy of logistic regression classifier: ", logreg.score(rescaledX_test,y_test))

# Imprima la matriz de confusión del modelo logreg
print(confusion_matrix(y_test,y_pred))

Accuracy of logistic regression classifier:  0.8377192982456141
[[93 10]
 [27 98]]


## 11. Grid searching and making the model perform better
**(Búsqueda de cuadrícula y mejora del rendimiento del modelo)**
<p> ¡Nuestro modelo era bastante bueno! Pudo producir una puntuación de precisión de casi el 84%. </p>
<p> Para la matriz de confusión, el primer elemento de la primera fila de la matriz de confusión denota los verdaderos negativos, es decir, el número de instancias negativas (aplicaciones denegadas) predichas correctamente por el modelo. Y el último elemento de la segunda fila de la matriz de confusión denota los verdaderos positivos, es decir, el número de instancias positivas (aplicaciones aprobadas) predichas correctamente por el modelo. </p>
<p> Veamos si podemos hacerlo mejor. Podemos realizar una <a href="https://machinelearningmastery.com/how-to-tune-algorithm-parameters-with-scikit-learn/"> búsqueda de cuadrícula </a> de los parámetros del modelo para mejorar la capacidad del modelo para predecir las aprobaciones de tarjetas de crédito. </p>
<p> <a href="http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html"> la implementación de scikit-learn de regresión logística </a> consta de diferentes hiperparámetros, pero nosotros buscará en cuadrícula los dos siguientes: </p>
<ul>
<li> tol </li>
<li> max_iter </li>
</ul>

In [109]:
# Importar GridSearchCV
from sklearn.model_selection import GridSearchCV

# Definir la cuadrícula de valores para tol y max_iter
tol = [0.01, 0.001 ,0.0001]
max_iter = [100,150,200]

# Cree un diccionario donde tol y max_iter son claves y 
#     las listas de sus valores son valores correspondientes
param_grid = dict(tol=tol, max_iter=max_iter)

## 12. Finding the best performing model
**(Encontrar el modelo con mejor rendimiento)**
<p> Hemos definido la cuadrícula de valores de hiperparámetros y los hemos convertido en un formato de diccionario único que <code> GridSearchCV () </code> espera como uno de sus parámetros. Ahora, comenzaremos la búsqueda en la cuadrícula para ver qué valores funcionan mejor. </p>
<p> Crearemos una instancia de <code> GridSearchCV () </code> con nuestro modelo anterior <code> logreg </code> con todos los datos que tenemos. En lugar de pasar el tren y los conjuntos de prueba por separado, proporcionaremos <code> X </code> (versión escalada) e <code> y </code>. También le indicaremos a <code> GridSearchCV () </code> que realice una <a href="https://www.dataschool.io/machine-learning-with-scikit-learn/"> validación cruzada </a> de cinco pliegues. </p>

<p> Finalizaremos el cuaderno almacenando la puntuación mejor obtenida y los mejores parámetros respectivos. </p>
<p> Al crear este predictor de tarjetas de crédito, abordamos algunos de los pasos de preprocesamiento más conocidos, como <strong> escalado </strong>, <strong> codificación de etiquetas </strong> y <strong> imputación de valor faltante </strong>. Terminamos con algo de <strong> aprendizaje automático </strong> para predecir si la solicitud de una persona para una tarjeta de crédito se aprobaría o no se proporcionaría información sobre esa persona. </p>

In [110]:
# Cree una instancia de GridSearchCV con los parámetros requeridos
grid_model = GridSearchCV(estimator=logreg, param_grid=param_grid, cv=5)

# Utilice scaler para cambiar la escala de X y asignarlo a rescaledX
rescaledX = scaler.fit_transform(X)

# Fit data a grid_model
grid_model_result = grid_model.fit(rescaledX, y)

# Summarize resultados
best_score, best_params = grid_model_result.best_score_ , grid_model_result.best_params_
print("Best: %f using %s" % (best_score, best_params))

Best: 0.850725 using {'max_iter': 100, 'tol': 0.01}
