# Mini Proyecto : Aprendizaje Supervisado
**Inteligencia Artificial**

In [4]:
from IPython.core.display import Image, display
%matplotlib inline
%config InlineBackend.figure_format = 'retina'  
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from scipy.stats import multivariate_normal, norm

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression as LR

from warnings import filterwarnings
filterwarnings('ignore')

# Configuración de las figuras matplotlib
plt.rcParams['figure.figsize'] = [8, 6]
plt.rcParams.update({'font.size': 12})

  from IPython.core.display import Image, display


### Ejercicio de aprendizaje supervisado (prediciendo mora)
Este conjunto de datos clasifica a las personas descritas por un conjunto de atributos como buenos o malos según su riesgo crediticio.

### Carga de datos
El dataset y su descripción se obtiene de la página:
 https://archive.ics.uci.edu/ml/datasets/statlog+(german+credit+data)
 


In [5]:
def load_data():
  data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data',
                     delimiter=" ",
                     header=None)
  data.columns=['existingchecking',
                'duration',
                'credithistory',
                'purpose',
                'creditamount',
                'savings',
                'employmentsince',
                'installmentrate',
                'statussex',
                'otherdebtors',
                'residencesince',
                'property',
                'age',
                'otherinstallmentplans',
                'housing',
                'existingcredits',
                'job',
                'peopleliable',
                'telephone',
                'foreignworker',
                'target'
                ]
  data.loc[:,'target'] = data['target'].replace([1,2],[1,0])
  return data

# Ejercicio
---

Como parte del equipo de riesgos de una entidad financiera se le solicita utilizando la base de datos *german*, que desarrolle el mejor modelo que me permita clasificar a los clientes en riesgosos y no riesgosos desde el punto de vista de la probabilidad de caer en mora.

Para esto tenga en cuenta lo siguiente:

1) Realice un análisis explortorio tanto visual como formal y extraiga conclusiones

2) Realice una preparación y preprocesado de los datos de acuerdo a lo observado. Por ej. analice nulos, outliers, codifique de forma adecuado las variables categóricas, analice el desbalanceo de clases, etc.

3) Compare las prestaciones en un conjunto de test de los siguientes clasificadores en términos de área bajo la curva ROC (AUC-ROC) y F1-score:

- Regresión Logística con regularización L2, validando el parámetro $C$ de regularización.
- Random Forest validando tanto el número de estimadores y el máximo número de hojas.
- XGBoost validando el el número de estimadores, la máxima profundidad del arbol y learning_rate.
- Elija algún otro algoritmo si lo considera necesario


**En todos los casos, valide el número de variables a la entrada usando el criterio de información mútua y seleccione rangos de validación adecuados para cada hiperparámetro utilizando Gridsearch y Cross Validation.
Y utilice Pipeline de sklearn para garantizar la ejecución ordenada de los distintos pasos

4) Represente también en una única gráfica la curva ROC de los cuatro clasificadores.

5) Recomiende el mejor clasificador y explique su elección


**Muestre, mediante gráficos y explicaciones acordes, las conclusiones a las que ha arribado durante y luego del aprendizaje.
Documente cada uno de los pasos del análisis para demostrar su entendimiento sobre el tema.**



In [6]:
data = load_data()
print("Cargadas {0:d} observaciones con {1:d} columnas\n".format(len(data), len(data.columns)))

Cargadas 1000 observaciones con 21 columnas


In [7]:
data.head()

Unnamed: 0,existingchecking,duration,credithistory,purpose,creditamount,savings,employmentsince,installmentrate,statussex,otherdebtors,...,property,age,otherinstallmentplans,housing,existingcredits,job,peopleliable,telephone,foreignworker,target
0,A11,6,A34,A43,1169,A65,A75,4,A93,A101,...,A121,67,A143,A152,2,A173,1,A192,A201,1
1,A12,48,A32,A43,5951,A61,A73,2,A92,A101,...,A121,22,A143,A152,1,A173,1,A191,A201,0
2,A14,12,A34,A46,2096,A61,A74,2,A93,A101,...,A121,49,A143,A152,1,A172,2,A191,A201,1
3,A11,42,A32,A42,7882,A61,A74,2,A93,A103,...,A122,45,A143,A153,1,A173,2,A191,A201,1
4,A11,24,A33,A40,4870,A61,A73,3,A93,A101,...,A124,53,A143,A153,2,A173,2,A191,A201,0
