# Ejercicio

Implementar los procesos de preparación de datos, selección de atributos, estandarización, y validación/evaluación del modelo predictivo.

Para el siguiente ejemplo utilizaremos un dataset sobre prestamos otorgados (`loan_data_set.csv`).

Luego de realizar el proceso de selección de atributos comparar los resultados y explicar el resultado asociado a cada método.

## Importar librerías

In [None]:
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn import metrics
from sklearn import preprocessing
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.metrics import accuracy_score,f1_score, confusion_matrix , recall_score , precision_score
from sklearn import tree
from sklearn.tree import export_graphviz
from sklearn.covariance import EllipticEnvelope
from sklearn.feature_selection import f_regression, mutual_info_regression
from matplotlib import pyplot as plt
import warnings
import os
warnings.filterwarnings('ignore')

## Importar dataset

### Comprendiendo los datos

`ID` =  Unique record ID  
`Gender` = Male/ Female  
`Married` = Applicant married (Y/N)  
`Dependents` = Number of dependents  
`Education` = Applicant Education (Graduate/ Under Graduate)  
`Self_Employed` = Self employed (Y/N)  
`ApplicantIncome` = Applicant income  
`CoapplicantIncome` = Coapplicant income  
`Credit_History` = Credit history meets guidelines(0- No, 1- Yes)  
`Property_Area` = Urban/ Semi Urban/ Rural  
`Loan_Applied` = Loan applied (Y/N)  

In [None]:
file = os.path.join() #TODO
df_loan_data=pd.read_csv(file)
df_loan_data.head()

In [None]:
df_loan_data.shape

In [None]:
df_loan_data.dtypes

In [None]:
## Incluir todos los atributos no solo los númericos
df_loan_data.describe() #TODO

## Limpieza/Transformación dataset

In [None]:
# Calculamos los valores `ausentes` por columna
# Total de valores ausentes
mis_val = # TODO
        
# Porcentaje de valores ausentes
mis_val_percent = 100 * df_loan_data.isnull().sum() / len(df_loan_data)
        
# Tabla con los resultados
mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
        
# Renombramos columnas
mis_val_table_ren_columns = mis_val_table.rename(
columns = {0 : 'Missing Values', 
           1 : '% of Total Values'})
        
# Ordenamos por porcentajes
mis_val_table_ren_columns = mis_val_table_ren_columns[
    mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
     '% of Total Values', ascending=False).round(1)
        
# Impresión de resultado
print ("El dataframe posee " + str(df_loan_data.shape[1]) + " columnas.\n"      
       "Existen" + " " + str(mis_val_table_ren_columns.shape[0]) +
       " columnas con datos ausentes")

In [None]:
mis_val_table_ren_columns

### Ignorar/eliminar valores categóricos
>Si a una columna le faltan menos del 10% de sus valores, puede ignorarlo. Aunque esto es subjetivo al tamaño del conjunto de datos y al planteamiento del problema.

### Reemplace los valores numéricos con:
>1. Reemplazar con un valor arbitrario
>2. Reemplazar con la media: este es el método más común para imputar valores faltantes de columnas numéricas. Si hay valores atípicos, entonces la media no será apropiada. En tales casos, es necesario tratar primero los valores atípicos.
>3. Reemplazar con la moda: la moda es el valor que aparece con más frecuencia. Se utiliza en el caso de características categóricas.
>4. Reemplazar con la mediana: la mediana es el valor más intermedio. Es mejor utilizar el valor mediano para la imputación en el caso de valores atípicos.

In [None]:
df_loan_data[df_loan_data['CoapplicantIncome'].isnull()]

>Note: Para CoapplicantIncome, la media se utiliza para completar los valores de las columnas que faltan, ya que son los valores más utilizados para las columnas numéricas. Completar con valor promedio es una buena representación de la columna.

In [None]:
df_loan_data.CoapplicantIncome.fillna() #TODO

In [None]:
df_loan_data[df_loan_data['ID'] == 'LP001041']

In [None]:
df_loan_data.dropna() # TODO eliminamos todos los na

La columna `ID` es un número de autogenerador que no contiene información viable. Es específico para cada cliente y no afecta el estado de solicitud del préstamo. Las secuencias automáticas generalmente se eliminan con fines de modelado para evitar introducir datos que no tienen significado o peso para el resultado final.

In [None]:
df_loan_data.drop() #TODO

### ¿Qué es la codificación de etiquetas?

Es una forma sencilla y eficaz de convertir variables categóricas en forma numérica. Al utilizar la clase LabelEncoder de scikit-learn, puede codificar fácilmente sus datos categóricos y prepararlos para análisis posteriores o ingresarlos en algoritmos de aprendizaje automático.

Supongamos que tenemos una altura de columna en algún conjunto de datos que tiene elementos como Alto, Medio y Corto. Para convertir esta columna categórica en una columna numérica, aplicaremos codificación de etiqueta a esta columna. Después de aplicar la codificación de etiquetas, la columna Altura se convierte en una columna numérica que tiene los elementos 0,1 y 2, donde 0 es la etiqueta para alto, 1 es la etiqueta para mediano y 2 es la etiqueta para alto bajo.

#### Valor de altura
- alto 2
- Medio 1
- Corto 0

In [None]:
le = LabelEncoder()
df_loan_data["Gender"] = le.fit_transform(df_loan_data["Gender"])
df_loan_data["Married"] = le.fit_transform(df_loan_data["Married"])
df_loan_data["Dependents"] = le.fit_transform(df_loan_data["Dependents"])
df_loan_data["Self_Employed"] = le.fit_transform(df_loan_data["Self_Employed"])
df_loan_data["Education"] = le.fit_transform(df_loan_data["Education"])
df_loan_data["Property_Area"] = le.fit_transform(df_loan_data["Property_Area"])
df_loan_data["Loan_Applied"] = le.fit_transform(df_loan_data["Loan_Applied"])

In [None]:
df_loan_data.dtypes

## Eliminación de outliers

En este paso determinar si es óptimo eliminar los outliers, ya sea por la cantidad respecto el dataset total, o si realmente pueden inferir negativamente en la clasificación.

In [None]:
# TODO

In [None]:
df_loan_data_wo_outliers = # TODO

## Partición externa

In [None]:
X=df_loan_data_wo_outliers.drop(['Loan_Applied'],axis=1)
y=df_loan_data_wo_outliers['Loan_Applied']

In [None]:
X_train,X_test,y_train,y_test=train_test_split(X,y,
                                           test_size=0.25,
                                           random_state=0)

## Selección de atributos (Feature selection)

In [None]:
mutual_info = mutual_info_regression(X_train, y_train)
print(mutual_info)
print(mutual_info.shape)

In [None]:
mutual_info = pd.Series(mutual_info)
mutual_info.index = X_train.columns
mutual_info.sort_values(ascending=False)
mutual_info.sort_values(ascending=False).plot.bar(figsize=(15,5))

## Normalización/Estandarización

In [None]:
standardizer = preprocessing.StandardScaler() #TODO
X_train_std = standardizer.fit_transform(X_train) #TODO
print(X_train_std) 

## Validación y evaluación del modelo

>Note: Evaluar el problema y utilizar un modelo basado en clasificación. En este caso recomendamos [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)

In [None]:
model= #TODO

In [None]:
"""
En results se hace la validación cruzada
"""

results = cross_val_score() #TODO

print("Resultados por bolsa: ", results)
print("Accuracy (media +/- desv.): %0.4f +/- %0.4f" % (results.mean(), results.std()))

In [None]:
# Para este ejemplo utilizaremos el algoritmo clasificador DecisionTreeClassifier
model.fit() #TODO
plt.figure(figsize=(20,20))
tree.plot_tree(model.fit(X_train,y_train))
plt.savefig("results/output.png")

In [None]:
# Evaluación del modelo en test
dt_predict = model.predict() #TODO
print ('Accuracy:', accuracy_score(y_test, dt_predict)*100,"%")
print ('Precision:', precision_score(y_test, dt_predict,average='weighted')*100,"%")
print ('Recall:', recall_score(y_test, dt_predict,average='weighted')*100,"%")
print ('F1 score:', f1_score(y_test, dt_predict,average='weighted')*100,"%")