## Desaf√≠o - An√°lisis lineal discriminante
- Para realizar este desaf√≠o debes haber estudiado previamente todo el material disponibilizado correspondiente a la unidad.

- Una vez terminado el desaf√≠o, comprime la carpeta que contiene el desarrollo de los requerimientos solicitados y sube el .zip en el LMS.

- Desarrollo desaf√≠o:

    -El desaf√≠o se debe desarrollar de manera Individual.
    
    -Para la realizaci√≥n del desaf√≠o necesitar√°s apoyarte del archivo Apoyo Desaf√≠o An√°lisis lineal discriminante.
    
## Requerimientos

Trabajaremos con una base de datos sobre clientes morosos de un banco. Dentro de √©sta se registran las siguientes observaciones:

- **`default`**: Variable Binaria. Registra si el cliente entr√≥ en morosidad o no.
- **`income`**: Ingreso promedio declarado por el cliente.
- **`balance`**: total del saldo en la cuenta de cr√©dito.
- **`student`**: Variable binaria. Registra si el cliente es estudiante o no.

## Ejercicio 1: Preparaci√≥n de ambiente de trabajo

- Importe los m√≥dulos b√°sicos para el an√°lisis de datos.
- Importe las clases **`LabelEncoder`**, **`StandardScaler`** y **`LabelBinarizer`** de **`preprocessing.`**
- Importe las funciones **`train_test_split`** y **`cross_val_score`** de **`model_selection.`**
- Importe la funci√≥n **`classification_report de metrics.`**
- Importe las clases **`LinearDiscriminantAnalysis`** y **`QuadraticDiscriminantAnalysis.`**
- **`Agregue la base de datos en el ambiente de trabajo.`**
- Inspeccione la distribuci√≥n de cada atributo.



In [None]:
# Triada calsica.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Graficos seaborn, warnings y datos perdidos.
import seaborn as sns
import warnings
import missingno as msngo

# Importaciones especificas de este desafio.


# Analicis exploratorio y descriptivo
from pandas_profiling import ProfileReport

# Machine learning
from sklearn.preprocessing import LabelEncoder, StandardScaler, LabelBinarizer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import confusion_matrix, classification_report, confusion_matrix, classification_report
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis

# Otras librerias, configuraciones e instancias.
labelencoder = LabelEncoder()
warnings.filterwarnings('ignore')
plt.rcParams['figure.figsize'] = (20, 10)
plt.style.use('seaborn-darkgrid')

In [None]:
df = pd.read_csv('default_credit.csv')
df.head()

In [None]:
profile = ProfileReport(df, title="Profiling Report para default_credit.csv")

In [None]:
profile.to_widgets()

In [None]:
profile.to_notebook_iframe()

## Ejercicio 2: Modelo base
- Recuerde que los modelos de **`sklearn`** no soportan datos que no sean num√©ricos. 
- Transforme los atributos pertinentes con **`LabelEncoder.`**
- Genere muestras de validaci√≥n y entrenamiento, reservando un 33% de los datos como validaci√≥n.
- Genere un modelo con **`LinearDiscriminantAnalysis`** sin modificar los hiper par√°metros. Genere m√©tricas de evaluaci√≥n utilizando **`classification_report.`**
- Comente sobre cu√°l es el desempe√±o del modelo en cada clase, as√≠ como en general.

## Ejercicio 3: Refactorizaci√≥n 1 - informaci√≥n a priori
- Dado que trabajamos con modelos generativos, podemos incluir informaci√≥n ex√≥gena. Para este caso agregaremos dos distribuciones:
    - Asumamos que hay un 50/50 de morosos y no morosos.
    - Asumamos que hay un 60/40 de morosos y no morosos.
- Por cada modelo, reporte las m√©tricas de clasificaci√≥n.

## Ejercicio 4: Refactorizaci√≥n 2 - oversampling
### Digresi√≥n: Synthetic Over(Under)Sampling
- Por lo general podemos intentar aliviar el problema del desbalance de clases
  mediante la ponderaci√≥n dentro del algoritmo. Otra alternativa es el muestreo con
  reemplazo dentro de los conjuntos de entrenamiento. Estos m√©todos cl√°sicos se
  conocen como **`Oversampling`** cuando repetimos registros aleatorios de la clase
  minoritaria, y **`Undersampling`** cuando eliminamos aleatoriamente registros de la
  clase mayoritaria.
- Un contratiempo de estos m√©todos cl√°sicos es que pueden replicar informaci√≥n
  sesgada que afecte el desempe√±o de generalizaci√≥n del modelo. Si los datos son
  malos, estaremos replicando estas fallas.
- Otra soluci√≥n es generar ejemplos de entrenamiento sint√©ticos mediante el
  entrenamiento de ejemplos de la clase minoritaria. A grandes rasgos la soluci√≥n
  funciona de la siguiente forma: En funci√≥n a un subconjunto de datos
  correspondientes a la clase minoritaria, entrenamos alg√∫n modelo no supervisado o
  generativo como Naive Bayes, KMeans o KNearestNeighbors para generar
  representaciones sint√©ticas de los datos en el espacio de atributos de la clase
  espec√≠fica mediante ùë• es un ejemplo de
  ùëõùë¢ùëíùë£ùëú‚àíùëíùëóùëíùëöùëùùëôùëú = ùë• ùëñ + Œª(ùë• ùëßùëñ ‚àí ùë• ùëñ) entrenamiento de la clase minoritaria y Œª es un par√°metro de interpolaci√≥n    aleatorio Œª ‚àº ùëàùëõùëñùëìùëúùëüùëöùëí(0, 1).
  
- Uno de los problemas m√°s graves de esta base de datos, es el fuerte desbalance
  entre clases. Ahora generaremos observaciones sint√©ticas mediante SMOTE
  (Synthetic Minority Oversampling Technique). Para ello, debemos agregar el paquete
  a nuestro ambiente virtual. En nuestro terminal agregamos conda install -c
  conda-forge imbalanced-learn. Incorpore SMOTE en el ambiente de trabajo con
  la siguiente sint√°xis from imblearn.over_sampling import SMOTE.
  
- Para implementar oversampling, debemos generar nuevos objetos que representan
  nuestra muestra de entrenamiento incrementada artificialmente. Para ello
  implemente la siguiente sintaxis:



In [None]:
from imblearn.over_sampling import SMOTE
# Instanciamos la clase
oversampler = SMOTE(random_state=11238, ratio='minority')
# generamos el eversampling de la matriz de entrenamiento y
X_train_oversamp, y_train_oversamp = oversampler.fit_sample(X_train,
y_train)

- Vuelva a entrenar el modelo con los datos aumentados de forma artificial y comente sobre su desempe√±o.

## Ejercicio 5: Refactorizaci√≥n 3 - QDA
- Por √∫ltimo, implemente un modelo **`QuadraticDiscriminantAnalysis`** con los datos aumentados artificialmente. Genere las m√©tricas de desempe√±o.
- Comente a grandes rasgos sobre el mejor modelo en su capacidad predictiva.
