<a href="https://colab.research.google.com/github/RubenMcCarty/Deep-Learning-RQ/blob/main/DATA_SCIENTIST_EXAMEN_BIC_Solucio%CC%81n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **1. Solicitud de tarjetas de credito en el banco BIC**
### [Profesor: M.Sc.Ruben Quispe](https://www.linkedin.com/in/msc-rub%C3%A9n-quispe-l/)


Caso: El banco BIC  recibe muchas solicitudes de tarjetas de crédito. Muchas de ellas son rechazadas por diversas razones, como deudas elevadas de préstamos, bajos niveles de ingresos o demasiadas consultas sobre el informe crediticio de una persona, etc. El análisis manual de estas aplicaciones es pesado, propenso a errores y requiere mucho tiempo. Afortunadamente, esta tarea se puede automatizar con el poder del aprendizaje automático y prácticamente todos los bancos comerciales lo hacen hoy en día. Tu tarea en este examen es desarrollar un modelo predictivo de aprobación de tarjetas de crédito utilizando técnicas de aprendizaje automático, tal como lo hacen los bancos reales.

Usarás un dataset que tiene la información necesaria para completar la tarea propuesta, el cual te hemos mandado por correo o también lo puedes descargar de [aquí](https://drive.google.com/file/d/1PGysvgrvHx3Z3lFr6jc-oSN9l7l6Z71E/view?usp=sharing). Debes cargarlo al entorno de ejecución para poder usarlo más adelante. 

La estructura de este notebook es la siguiente:

- Primero, comienza cargando y viendo el dataset.
- Verás  que el dataset tiene una mezcla de variables numéricas y no numéricas, que contiene valores de diferentes rangos, además de que contiene algunos datos faltantes.
- Tendrás que preprocesar el dataset para garantizar que el modelo de ML pueda hacer buenas predicciones.
- Una vez que los datos estén en buen estado, harás un análisis exploratorio de datos para derivar intuiciones.
- Finalmente, construirás un modelo de que pueda predecir si se aceptará o no la solicitud de una tarjeta de crédito de una persona.

**Nota:** Los nombres de las columnas son anónimos sin embargo esto no debe impedir realizar una correcta evaluación.

**Nota:** Cada vez que veas ... o # ... TU CÓDIGO AQUÍ ... debes completar con una o más líneas de código.

In [None]:
# Importa pandas
# ... TU CÓDIGO AQUÍ ...
import pandas as pd
import numpy as np
# Carga el dataset usando read_csv
cc_apps =pd.read_csv('cc_approvals.data')

# Inspecciona los datos (haz print)
# ... TU CÓDIGO AQUÍ ...
cc_apps

Unnamed: 0,b,30.83,0,u,g,w,v,1.25,t,t.1,01,f,g.1,00202,0.1,+
0,a,58.67,4.460,u,g,q,h,3.04,t,t,6,f,g,00043,560,+
1,a,24.50,0.500,u,g,q,h,1.50,t,f,0,f,g,00280,824,+
2,b,27.83,1.540,u,g,w,v,3.75,t,t,5,t,g,00100,3,+
3,b,20.17,5.625,u,g,w,v,1.71,t,f,0,f,s,00120,0,+
4,b,32.08,4.000,u,g,m,v,2.50,t,f,0,t,g,00360,0,+
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
684,b,21.08,10.085,y,p,e,h,1.25,f,f,0,f,g,00260,0,-
685,a,22.67,0.750,u,g,c,v,2.00,f,t,2,t,g,00200,394,-
686,a,25.25,13.500,y,p,ff,ff,2.00,f,t,1,t,g,00200,1,-
687,b,17.92,0.205,u,g,aa,v,0.04,f,f,0,f,g,00280,750,-


como vemos nuestro dataset no tiene cabezera, por lo tanto agregamos headers

In [None]:
cc_apps =pd.read_csv('cc_approvals.data', header = None)

In [None]:
cc_apps

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,b,30.83,0.000,u,g,w,v,1.25,t,t,1,f,g,00202,0,+
1,a,58.67,4.460,u,g,q,h,3.04,t,t,6,f,g,00043,560,+
2,a,24.50,0.500,u,g,q,h,1.50,t,f,0,f,g,00280,824,+
3,b,27.83,1.540,u,g,w,v,3.75,t,t,5,t,g,00100,3,+
4,b,20.17,5.625,u,g,w,v,1.71,t,f,0,f,s,00120,0,+
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
685,b,21.08,10.085,y,p,e,h,1.25,f,f,0,f,g,00260,0,-
686,a,22.67,0.750,u,g,c,v,2.00,f,t,2,t,g,00200,394,-
687,a,25.25,13.500,y,p,ff,ff,2.00,f,t,1,t,g,00200,1,-
688,b,17.92,0.205,u,g,aa,v,0.04,f,f,0,f,g,00280,750,-


### **2. Inspecciona las solicitudes**

El resultado puede parecer un poco confuso a primera vista, pero intentarás descubrir cuáles son las variables más importantes. Como puedes ver desde el primer vistazo a los datos, el dataset tiene una mezcla de características numéricas y no numéricas. Esto se puede solucionar con un preprocesamiento, pero antes de hacerlo, revisa un poco más el dataset para ver si hay otros problemas que deben solucionarse.

In [None]:
# Haz print del resumen estadístico
cc_apps_description = cc_apps.describe()
print(cc_apps_description)

print('\n')

# Haz print de la información del dataframe
cc_apps_info = cc_apps.info()
print(cc_apps_info)

print('\n')

# Inspecciona las últimas 17 filas en búsqueda de valores faltantes en el dataset
# ... TU CÓDIGO AQUÍ ...
cc_apps.tail(17)

               1           2           7          10             14
count  690.000000  690.000000  690.000000  690.00000     690.000000
mean    31.568029    4.758725    2.223406    2.40000    1017.385507
std     11.853273    4.978163    3.346513    4.86294    5210.102598
min     13.750000    0.000000    0.000000    0.00000       0.000000
25%     22.670000    1.000000    0.165000    0.00000       0.000000
50%     28.625000    2.750000    1.000000    0.00000       5.000000
75%     37.707500    7.207500    2.625000    3.00000     395.500000
max     80.250000   28.000000   28.500000   67.00000  100000.000000


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 690 entries, 0 to 689
Data columns (total 16 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       690 non-null    object 
 1   1       690 non-null    float64
 2   2       690 non-null    float64
 3   3       690 non-null    object 
 4   4       690 non-null    object 
 5   5       690 non-n

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
673,?,29.5,2.0,y,p,e,h,2.0,f,f,0,f,g,256,17,-
674,a,37.33,2.5,u,g,i,h,0.21,f,f,0,f,g,260,246,-
675,a,41.58,1.04,u,g,aa,v,0.665,f,f,0,f,g,240,237,-
676,a,30.58,10.665,u,g,q,h,0.085,f,t,12,t,g,129,3,-
677,b,19.42,7.25,u,g,m,v,0.04,f,t,1,f,g,100,1,-
678,a,17.92,10.21,u,g,ff,ff,0.0,f,f,0,f,g,0,50,-
679,a,20.08,1.25,u,g,c,v,0.0,f,f,0,f,g,0,0,-
680,b,19.5,0.29,u,g,k,v,0.29,f,f,0,f,g,280,364,-
681,b,27.83,1.0,y,p,d,h,3.0,f,f,0,f,g,176,537,-
682,b,17.08,3.29,u,g,i,v,0.335,f,f,0,t,g,140,2,-


In [None]:
# el tamaño de la data
cc_apps.shape

(690, 16)

In [None]:
cc_apps.size

11040

In [None]:
cc_apps.describe(include= 'all')

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
count,690,690.0,690.0,690,690,690,690,690.0,690,690,690.0,690,690,690.0,690.0,690
unique,3,,,4,4,15,10,,2,2,,2,3,171.0,,2
top,b,,,u,g,c,v,,t,f,,f,g,0.0,,-
freq,468,,,519,519,137,399,,361,395,,374,625,132.0,,383
mean,,31.568029,4.758725,,,,,2.223406,,,2.4,,,,1017.385507,
std,,11.853273,4.978163,,,,,3.346513,,,4.86294,,,,5210.102598,
min,,13.75,0.0,,,,,0.0,,,0.0,,,,0.0,
25%,,22.67,1.0,,,,,0.165,,,0.0,,,,0.0,
50%,,28.625,2.75,,,,,1.0,,,0.0,,,,5.0,
75%,,37.7075,7.2075,,,,,2.625,,,3.0,,,,395.5,


### **3. Manejo de los valores faltantes (parte 1)**

Ahora que haz dividido los datos, puedes manejar algunos de los problemas que identificaste al inspeccionar el DataFrame, que incluyen:

- El dataset contiene datos numéricos y no numéricos (específicamente datos que son de tipo float64, int64 y object). Específicamente, las variables 2, 7, 10 y 14 contienen valores numéricos (de tipo float64, float64, int64 e int64 respectivamente) y todas las demás variables contienen valores no numéricos.
- El dataset también contiene valores de varios rangos. Algunas variables tienen un rango de valores de 0 a 28, algunas de 2 a 67 y otras de 1017 a 100000. Además de esto, pudiste obtener información estadística útil (como media, máx. y mín.) sobre las variables que tienen valores numéricos.
- Finalmente, el dataset tiene valores faltantes, de los cuales te ocuparás en esta tarea. Los valores que faltan en el dataset están etiquetados con '?', que puedes ver en el resultado de la última celda de la segunda tarea.

Ahora, reemplaza temporalmente estos signos de interrogación de valor faltante con NaN.

In [None]:
# Importa numpy
# ... TU CÓDIGO AQUÍ ...
import numpy as np

# Reemplaza los '?' con NaN en los sets de train y test
# ... TU CÓDIGO AQUÍ ... primer metodo
cc_apps = cc_apps.replace('?',np.NaN)
# segundo metodo
#cc_apps.replace('?', np.isnan, inplace=True)


In [None]:
cc_apps.tail(17)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
673,,29.5,2.0,y,p,e,h,2.0,f,f,0,f,g,256,17,-
674,a,37.33,2.5,u,g,i,h,0.21,f,f,0,f,g,260,246,-
675,a,41.58,1.04,u,g,aa,v,0.665,f,f,0,f,g,240,237,-
676,a,30.58,10.665,u,g,q,h,0.085,f,t,12,t,g,129,3,-
677,b,19.42,7.25,u,g,m,v,0.04,f,t,1,f,g,100,1,-
678,a,17.92,10.21,u,g,ff,ff,0.0,f,f,0,f,g,0,50,-
679,a,20.08,1.25,u,g,c,v,0.0,f,f,0,f,g,0,0,-
680,b,19.5,0.29,u,g,k,v,0.29,f,f,0,f,g,280,364,-
681,b,27.83,1.0,y,p,d,h,3.0,f,f,0,f,g,176,537,-
682,b,17.08,3.29,u,g,i,v,0.335,f,f,0,t,g,140,2,-


In [None]:
valores_faltantes = cc_apps.isnull()
valores_faltantes

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
685,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
686,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
687,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
688,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False


### **4. Manejo de los valores faltantes (parte 2)**

Reemplazaste todos los signos de interrogación con NaN. Esto te ayudará en el próximo tratamiento de valores faltantes que vas a realizar.

Una pregunta importante que surge aquí es ¿por qué le damos tanta importancia a los valores faltantes? ¿No pueden simplemente ser ignorados? Ignorar los valores faltantes puede afectar en gran medida el rendimiento de un modelo de aprendizaje automático. Al ignorar los valores faltantes, el modelo de aprendizaje automático puede perder información sobre el dataset que puede ser útil para su entrenamiento. Entonces, hay muchos modelos que no pueden manejar los valores faltantes implícitamente, como el análisis discriminante lineal (LDA).

Para evitar este problema, vas a imputar los valores faltantes con la estrategia imputación media.

In [None]:


# Imputa los valores faltantes con la media
# ... TU CÓDIGO AQUÍ ...
cc_apps.fillna(cc_apps.mean(), inplace=True)

# Haz print al recuento de NaNs en el dataset para verificar
# ... TU CÓDIGO AQUÍ ...
print(cc_apps.isnull().sum())

0     12
1      0
2      0
3      6
4      6
5      9
6      9
7      0
8      0
9      0
10     0
11     0
12     0
13    13
14     0
15     0
dtype: int64


  cc_apps.fillna(cc_apps.mean(), inplace=True)


In [None]:
# conteo de valores faltantes
for column in cc_apps.columns.values.tolist():
    print(column)
    print(cc_apps[column].value_counts())
    print('_________________')

0
b    468
a    210
Name: 0, dtype: int64
_________________
1
31.56    12
22.67     9
20.42     7
18.83     6
24.50     6
         ..
48.25     1
28.33     1
18.75     1
18.50     1
36.42     1
Name: 1, Length: 350, dtype: int64
_________________
2
1.500     21
0.000     19
3.000     19
2.500     19
0.750     16
          ..
0.085      1
12.250     1
11.045     1
11.125     1
3.375      1
Name: 2, Length: 215, dtype: int64
_________________
3
u    519
y    163
l      2
Name: 3, dtype: int64
_________________
4
g     519
p     163
gg      2
Name: 4, dtype: int64
_________________
5
c     137
q      78
w      64
i      59
aa     54
ff     53
k      51
cc     41
m      38
x      38
d      30
e      25
j      10
r       3
Name: 5, dtype: int64
_________________
6
v     399
h     138
bb     59
ff     57
j       8
z       8
dd      6
n       4
o       2
Name: 6, dtype: int64
_________________
7
0.000    70
0.250    35
0.040    33
1.000    31
0.125    30
         ..
4.165     1
9.000     1
1.

### **5. Manejo de los valores faltantes (parte 3)**

Todavía faltan algunos valores por imputar para las columnas 0, 1, 3, 4, 5, 6 y 13. Todas estas columnas contienen datos no numéricos y es por eso que la estrategia de imputación media no funcionaría aquí. Esto necesita un tratamiento diferente.

Imputa estos valores faltantes con los valores más frecuentes presentes en las respectivas columnas. Esta es una buena práctica cuando se trata de imputar valores faltantes para datos categóricos en general.

In [None]:
print(cc_apps.isnull().sum())

0     12
1      0
2      0
3      6
4      6
5      9
6      9
7      0
8      0
9      0
10     0
11     0
12     0
13    13
14     0
15     0
dtype: int64


In [None]:
# Haz print al recuerto de NaNs en el dataset para verificar
# ... TU CÓDIGO AQUÍ ...
print(cc_apps.isnull().sum())
# Itera por cada columna de cc_apps_train
for col in cc_apps:
    # Valida si la columna es de tipo 'object'
    if cc_apps[col].dtypes == 'object':
        
        # Imputa los NaN con el valor más frecuente
        # ... TU CÓDIGO AQUÍ ...
        cc_apps = cc_apps.fillna(cc_apps[col].value_counts().index[0])

# Haz print al recuerto de NaNs en el dataset para verificar
# ... TU CÓDIGO AQUÍ ...
print(cc_apps.isnull().sum())

0     12
1      0
2      0
3      6
4      6
5      9
6      9
7      0
8      0
9      0
10     0
11     0
12     0
13    13
14     0
15     0
dtype: int64
0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
dtype: int64


### **7. Preprocesamiento de los datos (parte 1)**

Los valores faltantes ahora se manejan correctamente.

Todavía son necesarios unos pasos de preprocesamiento de datos menores pero esenciales antes de proceder a construir el modelo. Dividimos estos pasos de preprocesamiento restantes en dos tareas principales:

1. Convierte los datos no numéricos en numéricos.
2. Escala los valores de las variables a un rango uniforme.

Primero, convierte todos los valores no numéricos en valores numéricos. Esta es buena opción porque no solo da como resultado un cálculo más rápido, sino que también muchos modelos de aprendizaje automático (como XGBoost) (y especialmente los desarrollados con scikit-learn) requieren que los datos estén en un formato estrictamente numérico. Haz esto usando el método get_dummies() de pandas.

In [None]:
# import LabelEncoder
from sklearn.preprocessing import LabelEncoder
# inicializamos LabelEncoder
le= LabelEncoder()
# iterara todo los valores de cada columna y extraer su tipo de dato
for col in cc_apps:
    #comparar si el tipo de dato es objeto
    if cc_apps[col].dtypes=='object':
        #utilizamos LabelEncoder para hacer las transformaciónes númericas
        le.fit(cc_apps[col])
        cc_apps[col] = le.transform(cc_apps[col])
print(cc_apps.info())
# Convierte las variables categóricas de los sets train y test independientemente
#cc_apps_train = ...
#cc_apps_test = ...

# Vuelve a indexar las columnas del set test alineadas al set train (como resultado ambos sets deben tener exactamente las mismas columnas)
# ... TU CÓDIGO AQUÍ ...

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 690 entries, 0 to 689
Data columns (total 16 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       690 non-null    int64  
 1   1       690 non-null    float64
 2   2       690 non-null    float64
 3   3       690 non-null    int64  
 4   4       690 non-null    int64  
 5   5       690 non-null    int64  
 6   6       690 non-null    int64  
 7   7       690 non-null    float64
 8   8       690 non-null    int64  
 9   9       690 non-null    int64  
 10  10      690 non-null    int64  
 11  11      690 non-null    int64  
 12  12      690 non-null    int64  
 13  13      690 non-null    int64  
 14  14      690 non-null    int64  
 15  15      690 non-null    int64  
dtypes: float64(3), int64(13)
memory usage: 86.4 KB
None


### **6. Divide el conjunto de datos en train y test**

Ahora, divide los datos en un conjunto de train y uno de test para prepararlos para dos fases diferentes del modelado: entrenamiento y prueba. Idealmente, no se debe usar información de los datos de prueba para preprocesar los datos de entrenamiento o para dirigir el proceso de entrenamiento de un modelo de aprendizaje automático. Por lo tanto, primero dividirás los datos y luego los preprocesarás.

Además, por indicación del banco debes eliminar las variables en la posición 11 y 13.

In [None]:
# Importa train_test_split
# ... TU CÓDIGO AQUÍ ...

# Elimina las variables 11 y 13
cc_apps = ...

# Divide el conjunto en sets de train y test
cc_apps_train, cc_apps_test = train_test_split(..., test_size=0.33, random_state=42)

In [None]:
# Importa train_test_split

# ... TU CÓDIGO AQUÍ ...

from sklearn.model_selection import train_test_split



# Elimina las variables 11 y 13

cc_apps = cc_apps.drop([11,13],axis=1)

cc_apps = cc_apps.values

# Divide el conjunto en sets de train y test

cc_apps_train, cc_apps_test = train_test_split(cc_apps, test_size=0.33, random_state=42)

In [None]:
X,y = cc_apps[:,0:13], cc_apps[:,13]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

### **8. Preprocesamiento de los datos (parte 2)**

Solo queda un último paso de preprocesamiento de escalado antes de proceder a entrenar un modelo.

Usando score crediticio como ejemplo, el score crediticio de una persona es su solvencia basada en su historial crediticio. Cuanto mayor sea este número, más confiable financieramente se considera que es una persona. Por lo tanto, un score crediticio de 1 es el más alto, ya que estamos ajustando la escala de todos los valores al rango de 0-1.

In [None]:
# Importa MinMaxScaler
# ... TU CÓDIGO AQUÍ ...
from sklearn.preprocessing import MinMaxScaler
# Separa las variables y el target en variables separadas
#X_train, y_train = ...
#X_test, y_test = ...

# Instancia MinMaxScaler y úsalo para re-escalar X_train y X_test
scaler = MinMaxScaler(feature_range=(0,1))
rescaledX_train = scaler.fit_transform(X_train)
rescaledX_test = scaler.fit_transform(X_test)

### **9. Entrenamiento de un modelo de regresión logística con el set de entrenamiento**

Predecir si una solicitud de tarjeta de crédito será aprobada o no es una tarea de clasificación. El dataset contiene más instancias que corresponden al estado "Denegado" que instancias correspondientes al estado "Aprobado". Específicamente, de 690 instancias, hay 383 (55,5 %) solicitudes que fueron denegadas y 307 (44,5 %) que fueron aprobadas.

Esto es un punto de referencia. Un buen modelo de aprendizaje automático debería poder predecir con precisión el estado de las aplicaciones con respecto a estas estadísticas.

¿Qué modelo elegir? Una pregunta que debe hacerse es: ¿las características que afectan el proceso de decisión de aprobación de tarjetas de crédito están correlacionadas entre sí? Aunque se puede medir la correlación, eso está fuera del alcance del examen, por lo que asumirá que están correlacionados por ahora. Debido a esta correlación, debes aprovechar el hecho de que los modelos lineales generalizados funcionan bien en estos casos. Haz el modelado de aprendizaje automático con un modelo de regresión logística (un modelo lineal generalizado).

In [None]:
# Importa LogisticRegression
# ... TU CÓDIGO AQUÍ ...
from sklearn.linear_model import LogisticRegression

# Instancia un clasificador de LogisticRegression con los valores de parámetros por defecto
logreg = LogisticRegression()

# Entrena logreg con los sets de entrenamiento
# ... TU CÓDIGO AQUÍ ...
logreg.fit(rescaledX_train, y_train)

### **10. Haz predicciones y evalúa el desempeño**

¿Qué tan bien funciona el modelo?

Evalúa la precisión de la clasificación del modelo con el set de prueba (test). También mira la matriz de confusión. En el caso de predecir solicitudes de tarjetas de crédito, es importante ver si el modelo es igualmente capaz de predecir el estado aprobado y denegado, de acuerdo con la frecuencia de estas etiquetas en el dataset original. Si el modelo no está funcionando bien en este aspecto, entonces podría terminar aprobando solicitudes que deberían haber sido denegadas. La matriz de confusión  ayuda a ver el desempeño del modelo en este aspecto.
 ### métrica de evaluación (ME)
 Evalua que tan buenno es nuestro modelo
 ## ME-para regression son:
 1. MSE
 2. MAE
 3. RMSE
 4. R2...
 ### ME para Clasificación son
 1. confusion matrix
 2. F1....precision, recall....
 

In [None]:
# Importa confusion_matrix
# ... TU CÓDIGO AQUÍ ...
from sklearn.metrics import confusion_matrix
# Usa logreg para predecir instancias del set de test y guárdalo
y_pred = logreg.predict(rescaledX_test)

# Haz print de la precisión del modelo logreg
print("Precisión del clasificador regresión logística: ", logreg.score(rescaledX_test, y_test))

# Haz print de la matriz de confusión del modelo logreg
# ... TU CÓDIGO AQUÍ ...
print(confusion_matrix(y_test, y_pred))

Precisión del clasificador regresión logística:  0.8377192982456141
[[92 11]
 [26 99]]


### **11. Haz "Grid searching" y consigue un modelo que tenga mejor desempeño**

Realiza una búsqueda de grilla de los hiperparámetros del modelo para mejorar su capacidad para predecir aprobaciones de tarjetas de crédito.

La implementación de la regresión logística de scikit-learn consta de diferentes hiperparámetros, pero solo haz grid search sobre los dos siguientes:

- tol: Usa los valores 0.01, 0.001, 0.0001 y 0.05
- max_iter: Usa los valores 100, 150 y 200
- solver: Usa los valores 'liblinear' y 'lbfgs'

In [None]:
# Importa GridSearchCV
# ... TU CÓDIGO AQUÍ ...
from sklearn.model_selection import GridSearchCV

# Define los valores de grilla para tol y max_iter
tol = [0.01, 0.001, 0.0001, 0.05]
max_iter = [100, 150, 200]
#solver = ...

# Crea un diccionario donde tol y max_iter son las llaves y las listas creadas previamente son sus valores correspondientes
param_grid = dict(tol=tol, max_iter=max_iter)

### **12. Encuentra el modelo con mejor rendimiento**

Haz definido la grilla de valores de hiperparámetros y los haz convertido en un formato de diccionario único que GridSearchCV() espera como uno de sus parámetros. Ahora, haz la búsqueda de grilla para ver qué valores funcionan mejor.

Crea una instancia de GridSearchCV() con el modelo logreg anterior con todos los datos que tienes. También configura GridSearchCV() para que realice una validación cruzada de cinco pliegues (folds).

Termina el examen almacenando la puntuación mejor lograda y los mejores hiperparámetros respectivos (si el accuracy no varía respecto al modelo entrenado previamente, indica el por qué en un comentario).

In [None]:
# Instancia GridSearchCV con los parámetros requeridos
grid_model = GridSearchCV(estimator=logreg, param_grid=param_grid, cv=5)
rescaledX = scaler.fit_transform(X)
# Entrena grid_model con los datos de entrenamiento
grid_model_result = grid_model.fit(rescaledX,y)

# Resume los resultados
best_score, best_params = grid_model_result.best_score_, grid_model_result.best_params_
print("Mejor: %f usando %s" % (best_score, best_params))

# Extrae el mejor modelo y evalúalo en el set de prueba
#best_model = ...
#print("Accuracy of logistic regression classifier: ", ...)

Mejor: 0.850725 usando {'max_iter': 100, 'tol': 0.01}
