# Importar principales librerías de Python

In [None]:
# Librerías estándar
import numpy  as np
import pandas as pd

import itertools
import random

# Gráficas
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
%matplotlib inline  
import seaborn as sns
sns.set(style="white")

# scikit-learn
from sklearn.dummy           import DummyClassifier
from sklearn.linear_model    import LogisticRegression
from sklearn.linear_model    import LinearRegression
from sklearn.linear_model    import Lasso
from sklearn.metrics         import confusion_matrix
from sklearn.metrics         import roc_curve
from sklearn.metrics         import roc_auc_score
from sklearn.preprocessing   import StandardScaler
from sklearn.model_selection import train_test_split


# Ignorar warnings 
import warnings
warnings.filterwarnings('ignore')

# Para poder replicar los resultados de problemas aleatorios, es necesario definir una semilla
SEED = 1

# Definición de algunas funciones que nos ayudaran más adelante

In [None]:
def grafica_matriz_confusion(cm, classes=[0,1], normalize=False, title='Matriz de confusión\n', cmap=plt.cm.Reds):
    """ 
    Función para mostrar la matriz de confusión de un problema de clasificación binario. 
    El parámetro cm puede ser el objeto resultante de ejecutar la función confusion_matrix() de la librería sklearn.
    
    Args:
        cm         matriz de confusión de sklearn
        classes    categorías de la variable target
        normalize  normaliza asignando el parámetro True
        title      string para definir el título para la gráfica
        cmap       mapa de colores
    """
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=0)
    plt.yticks(tick_marks, classes)
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
    thresh = cm.max()
    text = [["VN =", "FN ="], ["FP =", "VP ="]]
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, "     {}".format(round (cm[i, j],2)), horizontalalignment="left",
                 color="white" if cm[i, j] > thresh else "black")
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, text[j][i] , horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")
    plt.tight_layout()
    plt.ylabel('Valor real')
    plt.xlabel('Predicción')
    
def grafica_curva_roc(fpr, tpr, title='Curva ROC', note=''):
    """
    Función para graficar la curva ROC
    Los parámetros fpr y tpr son el output de ejecutar la función roc_curve de sklearn
    
    Args:
        fpr        Tasa de falsos positivos 
        tpr        Tasa de verdaderos positivos
        title      sting para definir el título de la gráfica
        note       Nota para mostrar en la gráfica
    """
    plt.figure(1)
    plt.plot([0, 1], [0, 1], 'k--')
    plt.plot(fpr, tpr)
    plt.xlabel('Tasa de falsos positivos ')
    plt.ylabel('Tasa de verdaderos positivos')
    plt.title(title)
    if note: plt.text(0.6, 0.2, note)
    plt.show()
    
def histograma(data, color, xlabel):
    """ 
    Función para graficar un histograma
    
    Args:
        data       pandas dataframe
        color      string para definir el color de las barras del histograma
        xlabel     Etiqueta para el axis de las ys
    """
    ax = sns.distplot(data, kde=False, bins=10, color=color, hist_kws={"linewidth": 15,'alpha':0.3})
    ax.set(xlabel=xlabel, ylabel='Frecuencia')

# Importar los datos

In [None]:
# Importar datos (credit_data.csv)


In [None]:
# Ver el nombre de todas las variables independientes y dependientes


In [None]:
# Checar el tipo de dato de cada variable


In [None]:
# Checar el tamaño del data set


# Exploración de Datos

In [None]:
# Explora la variable "EDUCATION" (proporción)


In [None]:
# Explora la variable "EDUCATION" (frecuencia)


In [None]:
# Explora la variable "customer_default" (frecuencia)


In [None]:
# Explora la variable "customer_default" (proporción)


### ¿Está balanceada esta variable target?

In [None]:
# Explora la variable "SEX" por valores de la variable que indica si un cliente hace default o no


In [None]:
# Explora la variable "SEX" por valores de la variable que indica si un cliente hace default o no


In [None]:
# Explora la variable "SEX" por valores de la variable que indica si un cliente hace default o no


In [None]:
# Explora la variable "MARRIAGE" por valores de la variable que indica si un cliente hace default o no


In [None]:
# Checar el monto mínimo de límite de crédito en la variable "LIMIT_BAL"


In [None]:
# Checar el monto mínimo de límite de crédito en la variable "LIMIT_BAL"


In [None]:
# Checar la distribución de la variable "LIMIT_BAL" (límite de crédito)


In [None]:
# Grafica un histograma de la variable "LIMIT_BAL" de los clientes que no hicieron default


In [None]:
# Grafica un histograma de la variable "LIMIT_BAL" de los clientes que sí hicieron default


# Transformación de datos

In [None]:
# Crear variables dummy para las variables categóricas "SEX" y "MARRIAGE"


In [None]:
# Mostrar el nombre de las variables dummy creadas


In [None]:
# Explora la categoría 0 de MARRIAGE


In [None]:
# Explora la categoría 1 de MARRIAGE


In [None]:
# Explora la categoría 2 de MARRIAGE


In [None]:
# Explora la categoría 0 de MARRIAGE


# Métricas de ajuste para un problema de clasificación binario

In [None]:
# Define la variable target (Cliente con default en el siguiente mes) Recuerda que nuestras etiquetas son {0= no default, 1= default}
# Target la vemos como una y

# Define el conjunto de variables independientes
# Conjunto de variables independientes lo vemos como una matriz X


In [None]:
# Imprimir el tamaño de la variable target y el conjunto de atributos


In [None]:
# Imprimir nombres de atributos


In [None]:
# Divide el set de entrenamiento en dos sets (entrenamiento y validación) con la función train_test_split() de sklearn. Utiliza 20% para el set de validación


In [None]:
# Imprimir el tamaño del conjunto de atributos separado por tipo de set de datos (entrenamiento y validación)


In [None]:
# Imprimir el tamaño de la variable target separada por tipo de set de datos (entrenamiento y validación)


## Métricas para un clasificador que predice al azar

In [None]:
# Haz una predicción al azar. Recuerda que nuestras etiquetas son {0= no default, 1= default}


In [None]:
# Distribución de predicciones utilizando un clasificador al azar


In [None]:
# Distribución de predicciones utilizando un clasificador al azar


In [None]:
# Muestra la matriz de confusión para el clasificador que predice el azar



In [None]:
# Cuántos errores cometimos?


In [None]:
# Cuál es la efectividad


In [None]:
# Calcula el recall y la precisión de la predicción
# Recall VP/(VP+FN)
# Precisión VP/(VP+FP)


In [None]:
# Calcula la tasa de falsos positivos y la tasa de verdaderos positivos para poder graficar la curva ROC, y para calcular la métrica ROC AUC



## Métricas para un clasificador que siempre predice la categoría más frecuente en la variable target

In [None]:
# Determina el valor más frecuente para la variable target "customer_default"


In [None]:
# Haz una predicción utilizando el valor más frecuente. Recuerda que nuestras etiquetas son {0= no default, 1= default}


In [None]:
# Número de predicciones utilizando el valor más frecuente de la target


In [None]:
# Distribución de predicciones utilizando el valor más frecuente de la target


In [None]:
# Muestra la matriz de confusión para el clasificador que predice siempre el valor más frecuente


In [None]:
# Cuántos errores cometimos?


In [None]:
# Calcula la efectividad


In [None]:
# Calcula el recall y la precisión de la predicción


In [None]:
# Calcula la tasa de falsos positivos y la tasa de verdaderos positivos para poder graficar la curva ROC, y para calcular la métrica ROC AUC



### <(°o°)> ¿Cómo es posible que predecir el valor más frecuente de 77.8% de efectividad?

## Métricas para un modelo de regresión lineal con un parámetro de 30% como punto de corte para la "probabilidad"

In [None]:
# Entrena una regresión lineal para predecir si un cliente hará default


In [None]:
# Grafica los resultados 


### Hay algo que no hace sentido... ¿Qué es?

In [None]:
# Haz una predicción con base en un parámetro para la "probabilidad" del modelo de regresión lineal. Recuerda que nuestras etiquetas son {0= no default, 1= default}


In [None]:
# Distribución de predicciones


In [None]:
# Muestra la matriz de confusión


In [None]:
# Cuántos errores cometimos?


In [None]:
# Calcula la efectividad


In [None]:
# Calcula el recall y la precisión de la predicción


In [None]:
# Calcula la tasa de falsos positivos y la tasa de verdaderos positivos para poder graficar la curva ROC, y para calcular la métrica ROC AUC


In [None]:
# Grafica para comparar curvas ROC
