# Trabajo Práctico 1 
### Clasificación sobre datos simulados. 

## Introducción
Para este trabajo, hemos creado una función generadora de minions. Sobre cada minion, hemos medido 200 características que representan habilidades que poseen en distintas tareas (relacionadas al Mal).  

El doctor Nefario ha ideado una fórmula para determinar si un minion es o no apto para concretar su plan para conquistar el mundo. De esta manera ha etiquetado más de 500 minions. Lamentablemente, ha perdido dicha fórmula y necesita seguir decidiendo si nuevos minions son o no aptos para su macabro plan.

Es por esto que nuestro objetivo será construir clasificadores que estimen lo mejor posible la probabilidad de que nuevos minions sean o no aptos para concretar el plan de conquista y así facilitarle las cosas al doctor Nefario.

Por otra parte, ya que el doctor Nefario tuvo problemas con equipos que sobreestiman sus resultados, decidió guardarse varias etiquetas extra que no compartirá con nadie, y que luego utilizará para elegir al mejor equipo, al cual contratará para (de una vez por todas) conquistar el mundo. 


En concreto:

Tendrán disponible una matriz de datos $X$ de $500$ filas en donde cada fila $x^{(i)}$ representa un vector de $200$ características de cada instancia. Es decir, $\textbf{x}^{(i)} = x_1^{(i)}, \dots, x_{200}^{(i)}$ con $i$ entre $1$ y $500$. Además, tendrán y, un vector de $500$ posiciones con dos posibles valores: $True$ y $False$. 

Por otra parte, tendrán disponibles más instancias de evaluación $X_{competencia}$ sin las respectivas etiquetas que utilizaremos para evaluar sus resultados. 



In [None]:
# PREAMBULOS
%matplotlib inline
%reload_ext autoreload
%autoreload


SEED = 1234

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
from IPython.display import display, HTML
from time import time

import numpy as np
import numpy.ma as ma
np.set_printoptions(precision=4)
np.random.seed(SEED)

import pandas as  pd
pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', 15)

pd.set_option('precision', 4)

import matplotlib.pyplot as plt

import seaborn as sns

import sklearn.ensemble
import sklearn.naive_bayes
import sklearn.svm

import sklearn.model_selection
from scipy.stats import randint as sp_randint

from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score 
from sklearn.model_selection import KFold
from sklearn.model_selection import validation_curve
from sklearn.model_selection import learning_curve
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_auc_score
from sklearn import svm

from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import LinearSVC, SVC

from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.naive_bayes import GaussianNB, MultinomialNB
import scipy as sp
from scipy.stats import expon
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier

from math import log

from collections import Counter

In [None]:
# Carga de datos
X = pd.read_csv("X.csv", index_col="index")
y = pd.read_csv("y.csv", index_col="index", dtype=int)  # Cargamos los valores booleanos (True y False)
                                                        # como números (1 y 0) para facilitar el manejo luego. 

X_competencia = pd.read_csv("X_competencia1.csv", index_col="index")
y_competencia_ejemplo = pd.read_csv("y_competencia_ejemplo.csv", index_col="index")
display(X)
display(y)

# Descomentar si quieren ver los datos para la competencia:
# display(X_competencia) 
# display(y_competencia_ejemplo)

## Ejercicio 1

### Separación de datos

Contarán con una cantidad limitada de datos, por lo cual es importante tomar una buena decisión en el momento de empezar a utilizarlos. En este punto pedimos que evalúen cómo separar sus datos para desarrollo y para evaluación tomando en cuenta la competencia. 

In [None]:
# EJERCICIO 1. 

np.random.seed(1234)


########################################################
## AQUI VA SU CODIGO

X_dev, X_eval, y_dev, y_eval = train_test_split(X, y, test_size = 0.1)

# Objetivo: variables X_dev, X_eval, y_dev e y_eval asignadas
#########################################################

# print("X_dev: {}, y_dev: {} para desarrollo".format(X_dev.shape, y_dev.shape))
# print("X_eval: {}, y_eval: {} para evaluación".format(X_eval.shape, y_eval.shape))

plt.figure(figsize=(5, 3))
plt.hist(np.array(y_dev))  # muestra un histograma para la distribución de y.
plt.show()

## Ejercicio 2

### Construcción de modelos

Para este punto, la tarea consiste en construir y evaluar modelos de tipo árbol de decisión, de manera de obtener una estimación realista de la performance de los mismos. 

1. Entrenar un árbol de decisión con altura máxima 3 y el resto de los hiperparámetros en default. 
2. Estimar la performance del modelo utilizando K-fold cross validation con K = 5, con las métricas “Accuracy” y “ROC AUC”. Para ello, se pide medir la performance en cada partición tanto sobre el fold de validación como sobre los folds de entrenamiento. Luego, completar la primera tabla.
3. Entrenar árboles de decisión para cada una de las siguientes combinaciones y completar la segunda tabla.

----

**EJERCICIO EXTRA: Usar la implementación de árboles de decisión que realizaron para la guía de ejercicios de la materia. Adaptarla para que cumpla con la interfaz requerida por sklearn, asegurarse de que funcione con variables continuas y reproducir las tablas anteriores.   **

----

In [None]:
accuracies_training = []
accuracies_validation = []
aucs_training = []
aucs_validation = []

# Puede serles de utilidad tener a X_dev e y_dev como matrices de numpy directamente:
X_dev_np = np.array(X_dev)
y_dev_np = np.array(y_dev).ravel()

########################################################
def get_scores(train_indexes, test_indexes, decision_tree_criterion="gini", max_depth=3, metrics=[accuracy_score, roc_auc_score]):
    X_train, X_test = X_dev_np[train_indexes], X_dev_np[test_indexes]
    y_train, y_test = y_dev_np[train_indexes], y_dev_np[test_indexes]

    iteration_classifier = tree.DecisionTreeClassifier(max_depth=max_depth, criterion=decision_tree_criterion)
    iteration_classifier.fit(X_train, y_train)
    
    metrics_scores = []
    
    for metric in metrics:
        if metric == accuracy_score:
            y_test_prediction = iteration_classifier.predict(X_test)
            metrics_scores.append(accuracy_score(y_test, y_test_prediction))

            y_train_prediction = iteration_classifier.predict(X_train)
            metrics_scores.append(accuracy_score(y_train, y_train_prediction))
        elif metric == roc_auc_score:
            #Devuelve un array con la probabilidad de la clase 0 y la clase 1.
            #roc_auc_score pide solo la probobabilidad de la clase "positiva", asi que le paso el indice 1
            y_test_proba_prediction = iteration_classifier.predict_proba(X_test)
            metrics_scores.append(roc_auc_score(y_test, y_test_proba_prediction[:, 1]))

            y_train_proba_prediction = iteration_classifier.predict_proba(X_train)
            metrics_scores.append(roc_auc_score(y_train, y_train_proba_prediction[:, 1]))
    
    return metrics_scores

## AQUI VA SU CODIGO 
## Objetivo: accuracies_training, accuracies_validation, aucs_training y aucs_validation asignados
# Ejercicio 2.1
classifier = tree.DecisionTreeClassifier(max_depth=3)
classifier = classifier.fit(X_dev_np, y_dev_np)

# Ejercicio 2.2


kf = KFold(n_splits=5)
for train_index, test_index in kf.split(X_dev_np):
    [accuracy_test, accuracy_train, auc_roc_test, auc_roc_train] = get_scores(train_index, test_index)
    
    accuracies_validation.append(accuracy_test)
    aucs_validation.append(auc_roc_test)
    accuracies_training.append(accuracy_train)
    aucs_training.append(auc_roc_train)
#########################################################

df = pd.DataFrame(index=range(1,6))
df.index.name = "Permutación"
                  
df["Accuracy (training)"] = accuracies_training
df["Accuracy (validación)"] = accuracies_validation
df["AUC ROC (training)"] = aucs_training
df["AUC ROC (validación)"] = aucs_validation

display(HTML("<h3> TABLA 1 </h3>"))
display(df)

# Descomentar las siguientes líneas para graficar el resultado
df.plot(kind="bar")
plt.legend(loc='upper left', bbox_to_anchor=(1.0, 1.0))
plt.show()

In [None]:
resultados_training = []
resultados_validation = []

########################################################
## AQUI VA SU CODIGO 
## Objetivo: resultados_training y resultados_validation asignadas
#
## Recomendamos seguir el siguiente esquema:
np.random.seed(SEED)

for criterio in ["gini", "entropy"]:
    for altura in [3, 5, None]:
        kf = KFold(n_splits=5)
        auc_roc_test_list, auc_roc_train_list = [], []
        
        for train_index, test_index in kf.split(X_dev_np):
            [auc_roc_test_fold, auc_roc_train_fold] = get_scores(train_index, test_index, decision_tree_criterion=criterio, max_depth = altura, metrics = [roc_auc_score])
            
            auc_roc_test_list.append(auc_roc_test_fold)
            auc_roc_train_list.append(auc_roc_train_fold)
        resultados_training.append( sum(auc_roc_train_list) / len(auc_roc_train_list) )
        resultados_validation.append( sum(auc_roc_test_list) / len(auc_roc_test_list) )
#########################################################

df = pd.DataFrame(index=range(0,6))

df["Altura máxima"] = [3, 5, "Inifinito"] * 2
df["Criterio de evaluación de corte"] = ["Gini"] * 3 + ["Ganancia de Información"] * 3
df["AUC ROC promedio (training)"] = resultados_training # reemplazar por resultados_training
df["AUC ROC promedio (validación)"] = resultados_validation # reemplazar por resultados_validation
   
display(HTML("<h3> TABLA 2 </h3>"))
display(df)

In [None]:
#################################################################################################################
#Ejercicio extra

# Definición de la clase "Pregunta"
class Pregunta:
    def __init__(self, atributo, valor):
        self.atributo = atributo
        self.valor = valor
    
    def cumple(self, instancia):
        return instancia[self.atributo] <= self.valor
    
    def __repr__(self):
        return "¿Es el valor para {} menor o igual a {}?".format(self.atributo, self.valor)

##################################################################################################################
# Definición de la estructura del árbol. 
class Hoja:
    #  Contiene las cuentas para cada clase (en forma de diccionario)
    #  Por ejemplo, {'Si': 2, 'No': 2}
    def __init__(self, etiquetas):
        self.cuentas = dict(Counter(etiquetas))

class Nodo_De_Decision:
    # Un Nodo de Decisión contiene preguntas y una referencia al sub-árbol izquierdo y al sub-árbol derecho
    def __init__(self, pregunta, sub_arbol_izquierdo, sub_arbol_derecho):
        self.pregunta = pregunta
        self.sub_arbol_izquierdo = sub_arbol_izquierdo
        self.sub_arbol_derecho = sub_arbol_derecho    

    
##################################################################################################################
def construir_arbol(instancias, etiquetas, altura, criterio):
    # ALGORITMO RECURSIVO para construcción de un árbol de decisión binario. 
    # Suponemos que estamos parados en la raiz del árbol y tenemos que decidir cómo construirlo. 
    if rama_terminada(etiquetas):
        return Hoja(etiquetas)
    
    ganancia, pregunta = encontrar_mejor_atributo_y_corte(instancias, etiquetas, criterio)
    # Criterio de corte: ¿Hay ganancia?
    if ganancia == 0 or (altura != None and altura == 0):
        #  Si no hay ganancia en separar, o llegue a la altura requerida, corto la recursion. 
        return Hoja(etiquetas)
    # Si hay ganancia en partir el conjunto en 2
    instancias_cumplen, etiquetas_cumplen, instancias_no_cumplen, etiquetas_no_cumplen = partir_segun(pregunta, instancias, etiquetas)
    # partir devuelve instancias y etiquetas que caen en cada rama (izquierda y derecha)

    altura_rec = None if(altura == None) else altura - 1
    # Paso recursivo (consultar con el computador más cercano)
    sub_arbol_izquierdo = construir_arbol(instancias_cumplen, etiquetas_cumplen, altura_rec, criterio)
    sub_arbol_derecho   = construir_arbol(instancias_no_cumplen, etiquetas_no_cumplen, altura_rec, criterio)
    # los pasos anteriores crean todo lo que necesitemos de sub-árbol izquierdo y sub-árbol derecho

    # sólo falta conectarlos con un nodo de decisión:
    return Nodo_De_Decision(pregunta, sub_arbol_izquierdo, sub_arbol_derecho)

def rama_terminada(etiquetas):
    return len(etiquetas) <= 1 or len(set(etiquetas)) == 1


def encontrar_mejor_atributo_y_corte(instancias, etiquetas, criterio):
    max_ganancia = 0
    mejor_pregunta = None
    for columna in instancias.columns:
        #if columna % 50 == 0:
        #    print("Atributo: {}".format(columna))
        bordes = generar_valores_borde_random(instancias, etiquetas, columna)
        #print("Bordes {}".format(bordes))
        for valor in bordes:
            # Probando corte para atributo y valor
            pregunta = Pregunta(columna, valor)
            #print('Pregunta: {}'.format(pregunta))
            _, etiquetas_rama_izquierda, _, etiquetas_rama_derecha = partir_segun(pregunta, instancias, etiquetas)
            if(criterio == 'gini'):
                ganancia = ganancia_gini(instancias, etiquetas, etiquetas_rama_izquierda, etiquetas_rama_derecha)
            else:
                ganancia = ganancia_entropia(instancias, etiquetas, etiquetas_rama_izquierda, etiquetas_rama_derecha)
            #print("La ganancia para la pregunta {}, es {}".format(pregunta, ganancia))
            if ganancia > max_ganancia:
                max_ganancia = ganancia
                mejor_pregunta = pregunta
    #print("La mejor pregunta es {}, con una ganancia de {}".format(mejor_pregunta, max_ganancia))        
    return max_ganancia, mejor_pregunta
    
"""
def generar_valores_borde(instancias, etiquetas, columna):
    #El metodo argsort de numpy returns the indices that would sort an array.
    bordes = []
    if len(instancias) <= 1:
        return bordes
    for atributo in instancias.columns:
        valores = instancias.loc[:, atributo]
        indices_valores_ordenados = valores.argsort()
        
        anterior_indice = indices_valores_ordenados.iloc[0]
        anterior_valor = valores[anterior_indice]
        anterior_etiqueta = etiquetas[anterior_indice]

        for actual_indice in indices_valores_ordenados:
            #Indice representa el numero de la instancia que estoy mirando
            actual_valor = valores[actual_indice]
            actual_etiqueta = etiquetas[actual_indice]
            if actual_etiqueta != anterior_etiqueta:
                bordes.append((anterior_valor + actual_valor)/2)
            anterior_indice = actual_indice
            anterior_valor = actual_valor
            anterior_etiqueta = actual_etiqueta
        return bordes
"""

def generar_valores_borde_random(instancias, etiquetas, columna):
    #Divide en subarreglos de tamaño 10 y elige un candidato de manera aleatoria de cada uno de ellos
    valores = instancias.loc[:, columna]
    if valores.size <=10:
        return valores.tolist()
    subarreglos = np.array_split(valores, valores.size/10) 
    bordes = []
    for subarreglo in subarreglos:
        bordes.append(np.random.choice(subarreglo))
    return bordes

def partir_segun(pregunta, instancias, etiquetas):
    # Esta función debe separar instancias y etiquetas según si cada instancia cumple o no con la pregunta (ver método 'cumple')
    # COMPLETAR (recomendamos utilizar máscaras para este punto)
    mascara = np.apply_along_axis(pregunta.cumple, 1, instancias)
    
    instancias_cumplen = instancias[np.array(mascara)]
    instancias_no_cumplen = instancias[np.array(~mascara)]
    
    etiquetas_cumplen = ma.array(etiquetas, mask = ~mascara).compressed();
    etiquetas_no_cumplen = ma.array(etiquetas, mask = mascara).compressed();
    
    return instancias_cumplen, etiquetas_cumplen, instancias_no_cumplen, etiquetas_no_cumplen

diccionario_gini = {}
diccionario_entropia = {}

def gini(etiquetas):
    diccionario = dict(Counter(etiquetas))
    totalEtiquetas = sum(diccionario.values())
    impureza = 1
    for etiqueta in diccionario.keys():
        impureza = impureza - (diccionario[etiqueta]/totalEtiquetas)**2
    return impureza

def ganancia_gini(instancias, etiquetas, etiquetas_rama_izquierda, etiquetas_rama_derecha):
    n_izq = len(etiquetas_rama_izquierda)
    n_der = len(etiquetas_rama_derecha)
    n = len(etiquetas)
    
    gini_total = gini(etiquetas)
    gini_izq = gini(etiquetas_rama_izquierda)
    gini_der = gini(etiquetas_rama_derecha)
    
    ganancia_gini = gini_total - ((n_izq/n)*gini_izq + (n_der/n)*gini_der)
    
    return ganancia_gini

def entropia(etiquetas):
    diccionario = dict(Counter(etiquetas))
    tupla = (diccionario.get(0, 0), diccionario.get(1, 0))
    if tupla in diccionario_entropia:
        return diccionario_entropia[tupla]
    entropia = 0
    for etiqueta in diccionario.keys():
        proporcion = diccionario[etiqueta]/len(etiquetas)
        entropia += -proporcion*log(proporcion,2)
    diccionario_entropia[tupla] = entropia
    return entropia

def ganancia_entropia(instancias, etiquetas, etiquetas_rama_izquierda, etiquetas_rama_derecha):
    n_izq = len(etiquetas_rama_izquierda)
    n_der = len(etiquetas_rama_derecha)
    n = len(etiquetas)
    
    entropia_total = entropia(etiquetas)
    entropia_izq = entropia(etiquetas_rama_izquierda)
    entropia_der = entropia(etiquetas_rama_derecha)
    
    ganancia_entropia = entropia_total - ((n_izq/n)*entropia_izq + (n_der/n)*entropia_der)
    
    return ganancia_entropia

def imprimir_arbol(arbol, spacing=""):
    if isinstance(arbol, Hoja):
        print (spacing + "Hoja:", arbol.cuentas)
        return

    print (spacing + str(arbol.pregunta))

    print (spacing + '--> True:')
    imprimir_arbol(arbol.sub_arbol_izquierdo, spacing + "  ")

    print (spacing + '--> False:')
    imprimir_arbol(arbol.sub_arbol_derecho, spacing + "  ")


def predecir(arbol, x_t):
    if isinstance(arbol, Hoja):
        return max(arbol.cuentas, key=arbol.cuentas.get)
    
    if(arbol.pregunta.cumple(x_t)):
        return predecir(arbol.sub_arbol_izquierdo, x_t)
    else:
        return predecir(arbol.sub_arbol_derecho, x_t)

def predecir_proba(arbol, x_t):
    if isinstance(arbol, Hoja):
        #Retorno la probabilidad de que la clase sea 'Si'
        return arbol.cuentas.get(1, 0)/(arbol.cuentas.get(1, 0) + arbol.cuentas.get(0, 0))
    
    if(arbol.pregunta.cumple(x_t)):
        return predecir(arbol.sub_arbol_izquierdo, x_t)
    else:
        return predecir(arbol.sub_arbol_derecho, x_t)

##################################################################################################################
class MiClasificadorArbol(): 
    def __init__(self, columnas=None):
        self.arbol = None
        self.columnas = columnas
    
    def fit(self, X_train, y_train, max_depth=None, criterion='gini'):
        self.arbol = construir_arbol(pd.DataFrame(X_train, columns=self.columnas), y_train, max_depth, criterion)
        #imprimir_arbol(self.arbol)
        return self
    
    def predict(self, X_test):
        predictions = []
        for x_t in X_test:
            x_t_df = pd.DataFrame([x_t], columns=self.columnas).iloc[0]
            prediction = predecir(self.arbol, x_t_df) 
            #print(x_t, "predicción ->", prediction)
            predictions.append(prediction)
        return predictions
    
    def predict_proba(self, X_test):
        predictions = []
        for x_t in X_test:
            x_t_df = pd.DataFrame([x_t], columns=self.columnas).iloc[0]
            prediction = predecir_proba(self.arbol, x_t_df) 
            #print(x_t, "predicción ->", prediction)
            predictions.append(prediction)
        return predictions
    
    def score(self, X_test, y_test):
        y_pred = self.predict(X_test)
        
        accuracy = sum(y_i == y_j for (y_i, y_j) in zip(y_pred, y_test)) / len(y_test)
        return accuracy


##################################################################################################################
def get_dt_scores(train_indexes, test_indexes, decision_tree_criterion="gini", max_depth=3, metrics=[roc_auc_score]):
    X_train, X_test = X_dev_np[train_indexes], X_dev_np[test_indexes]
    y_train, y_test = y_dev_np[train_indexes], y_dev_np[test_indexes]
    
    iteration_classifier = MiClasificadorArbol()
    iteration_classifier.fit(X_train, y_train, max_depth, decision_tree_criterion)
    
    metrics_scores = []
    
    for metric in metrics:
        if metric == accuracy_score:
            y_test_prediction = iteration_classifier.predict(X_test)
            metrics_scores.append(accuracy_score(y_test, y_test_prediction))

            y_train_prediction = iteration_classifier.predict(X_train)
            metrics_scores.append(accuracy_score(y_train, y_train_prediction))
        elif metric == roc_auc_score:
            #Nuestro predictor solamente devuelve la probabilidad de la clase positiva
            y_test_proba_prediction = iteration_classifier.predict_proba(X_test)
            metrics_scores.append(roc_auc_score(y_test, y_test_proba_prediction))

            y_train_proba_prediction = iteration_classifier.predict_proba(X_train)
            metrics_scores.append(roc_auc_score(y_train, y_train_proba_prediction))
    
    return metrics_scores



##################################################################################################################################
resultados_training = []
resultados_validation = []

for criterio in ["gini", "entropy"]:
    for altura in [3, 5, None]:
        kf = KFold(n_splits=5)
        auc_roc_test_list, auc_roc_train_list = [], []
        #print("Criterio: {}, Altura: {}".format(criterio, altura))
        contador_fold = 1
        for train_index, test_index in kf.split(X_dev_np):
            #print("Probando fold: {}".format(contador_fold))
            contador_fold+=1
            [auc_roc_test_fold, auc_roc_train_fold] = get_dt_scores(train_index, test_index, decision_tree_criterion=criterio, max_depth = altura, metrics = [roc_auc_score])
            
            auc_roc_test_list.append(auc_roc_test_fold)
            auc_roc_train_list.append(auc_roc_train_fold)
        resultados_training.append( sum(auc_roc_train_list) / len(auc_roc_train_list) )
        resultados_validation.append( sum(auc_roc_test_list) / len(auc_roc_test_list) )
###################################################################################################################################

df = pd.DataFrame(index=range(0,6))

df["Altura máxima"] = [3, 5, "Inifinito"] * 2
df["Criterio de evaluación de corte"] = ["Gini"] * 3 + ["Ganancia de Información"] * 3
df["AUC ROC promedio (training)"] = resultados_training # reemplazar por resultados_training
df["AUC ROC promedio (validación)"] = resultados_validation # reemplazar por resultados_validation
   
display(HTML("<h3> TABLA EJERCICIO EXTRA </h3>"))
display(df)


## Ejercicio 3: Comparación de algoritmos


Se pide explorar distintas combinaciones de algoritmos de aprendizaje e hiperparámetros, de manera de buscar una performance óptima. Para este ejercicio es necesario que evalúen posibilidades utilizando la técnica de Grid Search. Como métrica de performance, usar siempre el área bajo la curva (AUC ROC) resultante de 5-fold cross-validation. 

Algoritmos a probar: KNN, árboles de decisión, LDA, Naive Bayes y SVM. Hiperparámetros: Revisar la documentación de cada uno para la búsqueda de combinaciones prometedoras.  

Se pide generar un reporte que contenga: 

1. Una descripción de las distintas combinaciones consideradas y su performance asociada (las que consideren relevantes, con al menos la mejor combinación para cada algoritmo). 

1. Una breve explicación de los factores que creen que produjeron dicho resultado. 

En este punto evaluaremos tanto los hiperparámetros elegidos como las conclusiones relacionadas a por qué piensan que ciertos algoritmos funcionan mejor que otros para estos datos. 



----

**EJERCICIO EXTRA**: Utilizar RandomizedSearchCV con rangos de parámetros que contengan a los utilizados en el GridSearch. Analizar si se encontraron mejores combinaciones de parámetros que no hayan sido tenidas en cuenta con el GridSearch y cuál fue la diferencia de tiempo de ejecución. 

----

In [None]:
import collections

def top_resultados(grid, method, top=10):
    print( " ")
    print( " ")
    ## Si quieren, pueden utilizar esta función para imprimir las mejores combinaciones de su grid
    print("Top {} combinaciones".format(top) + " " + method)
    df = pd.DataFrame(grid.cv_results_["params"])
    df["mean_score_validation"] = grid.cv_results_["mean_test_score"]
    df["mean_score_training"] = grid.cv_results_["mean_train_score"]
    display(df.sort_values(by="mean_score_validation", ascending=False).head(top))
    print( " ")
    

#def top_resultados(grid, method, top=25):
#    print("Top {} combinaciones para ".format(top) + method)
#    df = pd.DataFrame(grid.cv_results_["params"])
#    df["mean_score_validation"] = grid.cv_results_["mean_test_score"]
#    df["mean_score_training"] = grid.cv_results_["mean_train_score"]
    
    # Este sorting score se considero una mejor opción comparado con buscar el mayor mean_score_validation
    # porque de esta manera cobra algo de influencia la posibilidad de que el modelo elegido
    # presente overfitting, dándole algo de peso a la cercanía entre su validation y training score
#    sorting_score = df['mean_score_validation'] - (df['mean_score_validation'] - df['mean_score_training'])**2
    
#    df = df \
#        .assign(sorting_score = sorting_score) \
#        .sort_values('sorting_score', ascending=False) \
#        .drop('sorting_score', axis=1)
    
#    pd.options.display.max_rows = 50
#    display(df.head(top))
#    print('\n\n\n')

########################################################
## AQUI VA SU CODIGO 
## Objetivo: comparar y explorar distintas combinaciones de parámetros para los algoritmos importados arriba

iteraciones = 70

def doSearch(searchType, clasiffier, parameters):
    if searchType == 'grid':
        gridSearch = GridSearchCV(clasiffier, parameters, cv=5, scoring="roc_auc", return_train_score=True)
        gridSearch.fit(X_dev_np, y_dev_np)
        return gridSearch

    if searchType == 'random':
        randomSearch = RandomizedSearchCV(clasiffier, param_distributions=parameters, n_iter=iteraciones, cv=5, scoring="roc_auc", refit=True)
        randomSearch.fit(X_dev_np, y_dev_np)
        return randomSearch

#searchs = [{'grid'},{'random'}]
#lda_parameters_grid = [{'solver': ['lsqr'], 'shrinkage': [0, 1]}, {'solver': ['lsqr']},
#                        {'solver': ['eigen'], 'shrinkage': [0, 1]}, {'solver': ['eigen']}]
#shrinkage: solo esta disponible para lsqr y eigen. Por defecto: 'shrinkage':None 
#lda_parameters_random = {'solver': ['lsqr','eigen','svd'], 'shrinkage': [np.arange(0, 1, 0.000001)]}

#lda_parameters_random = {'solver': ['lsqr'], 'shrinkage': np.arange(0, 1, 0.000001)}

#tree_parameters_grid = [{'class_weight': ['balanced', None], 'max_features': [None, 100, 'auto'], 'max_depth':  np.arange(1, 50, 2),'criterion': ('gini','entropy') }]
#tree_parameters_random = {'class_weight': ['balanced', None], 'max_features': [None, 100, 'auto'], 'max_depth': np.arange(1, 50, 2),'criterion': ('gini','entropy') }

# tree_parameters_random = {'max_depth':np.append(np.arange(1, 41), None),'criterion': ('gini','entropy') }
#knn_parameters_grid = {'n_neighbors': [1,2,3,5,10,20,30,40,100],'p': np.arange(1,3), "weights" : ['uniform', 'distance']}
#knn_parameters_random = {'n_neighbors': np.arange(1, 101), 'p': np.arange(1,3), "weights" : ['uniform', 'distance']}
#svm_parameters_grid = [{'kernel': ['rbf', 'poly', 'sigmoid'], 'gamma': [1e-1, 1e-2,1e-3, 1e-4], 'C': [1, 10, 100]}, {'kernel': ['linear'], 'C': [1, 10, 100]}]
#svm_parameters_random = {'kernel': ['rbf', 'poly', 'sigmoid'], 'gamma':sp.stats.expon(scale=.1),'C': sp.stats.expon(scale=10)}

#KNN
#grid_KNN_result = doSearch('grid', KNeighborsClassifier(), knn_parameters_grid)
#top_resultados(grid_KNN_result, "KNN GridSearch")
#random_KNN_result =  doSearch('random', KNeighborsClassifier(), knn_parameters_random)
#top_resultados(random_KNN_result, "KNN RandomSearch")

#Arbol
#grid_tree_result = doSearch('grid', DecisionTreeClassifier(), tree_parameters_grid)
#top_resultados(grid_tree_result, "Decision Tree GridSearch")
#random_tree_result = doSearch('random', DecisionTreeClassifier(), tree_parameters_random)
#top_resultados(random_tree_result, "Decision Tree RandomSearch")

#LDA
#grid_LDA_result = doSearch('grid', LinearDiscriminantAnalysis(), lda_parameters_grid)
#top_resultados(grid_LDA_result, "LDA GridSearch")
#random_LDA_result = doSearch('random', LinearDiscriminantAnalysis(), lda_parameters_random)
#top_resultados(random_LDA_result, "LDA RandomSearch")

#Naive Bayes Gaussiana
#grid_gauss_result = doSearch('grid', GaussianNB(), {})
#top_resultados(grid_gauss_result, "Naive Gauss GridSearch")
#iteraciones = 1
#random_gauss_result = doSearch('random', GaussianNB(), {})
#top_resultados(random_gauss_result, "Naive Gauss RandomSearch")

#SVM
#grid_SVM_result = doSearch('grid', SVC(), svm_parameters_grid)
#top_resultados(grid_SVM_result, "SVM GridSearch")
#random_SVM_result = doSearch('random', SVC(), svm_parameters_random)
#top_resultados(random_SVM_result, "SVM RandomSearch")


########################################################

Elección de Parametros para KNN:

GridSearch:
- n: Cantidad de vecinos: elegimos un rango entre 3 y 150 vecinos. Decidimos un valor impar como inicial para evitar problemas de empate en la frontera. Elegir un rango tan amplio nos permite ver en más detalle la interacción de los distintos parámetros. #comentar despues diferencias entre cantidad de vecinos alta ponderados por su distancia.
- weights: para predecir los valores utilizaremos uniform y distance para asignarle pesos a los vecinos.
- p: forma de calcular la distancia, utilizaremos la distancia euclidiana y la manhattan

RandomSearch:
La diferencia es que utilizaremos un rango de vecindad entre 3 y 200 de forma aleatoria


In [None]:
knn_parameters_grid = {'n_neighbors': [3,5,10,20,30,40,100,110,120,150],'p': np.arange(1,3), "weights" : ['uniform', 'distance']}
knn_parameters_random = {'n_neighbors': np.arange(3, 201), 'p': np.arange(1,3), "weights" : ['uniform', 'distance']}


grid_KNN_result = doSearch('grid', KNeighborsClassifier(), knn_parameters_grid)
top_resultados(grid_KNN_result, "KNN GridSearch")

random_KNN_result =  doSearch('random', KNeighborsClassifier(), knn_parameters_random)
top_resultados(random_KNN_result, "KNN RandomSearch")

Conclusiones de KNN

En general usar pesos uniformes ha tenido más éxito tanto para Grid Search como para Random Search.

Ni en Grid Search ni en Random Search se nota algún tipo de valor n_neighbors que supere por mucho al resto, aunque a simple vista pareciera que los valores mayores o iguales a 20 tienen más éxito.

Las distancias Manhattan y euclideanas (p = 1 y 2) son claramente mejores que el p = 3 para este dataset.

Elección de Parametros para Tree:

GridSearch:
- criterion: utilizaremos gini y entropy para decidir los splits
- splitter: evaularemos con los criterios de best y random
- max_depth: la altura del arbol la iniciaremos en 3, aumentandolo hasta 50. No consideramos arboles de altura mayor ya que se corre el riesgo de caer en overfitting. El objetivo seria buscar uno no tan alto pero que generalice bien.
- max_features: la cantidad de instancias que se consideraran en un split inicial en 10 se ira aumentando hasta 100 y en auto

RandomSearch:
La diferencia es que utilizaremos valores random en la altura de 5 hasta 50 y para el split se consideraran valores random entre 1 y 200

In [None]:
tree_parameters_grid = [{ 'class_weight': ['balanced', None], 'splitter': ['best', 'random'], 'max_features': [None, 10, 20, 30, 40, 50, 100, 'auto'], 'max_depth': [3, 5, 10, 15, 20, 50],'criterion': ('gini','entropy') }]
tree_parameters_random = {'class_weight': ['balanced', None], 'splitter': ['best', 'random'], 'max_features': np.arange(10, 200, 1), 'max_depth': np.arange(1, 50, 2),'criterion': ('gini','entropy') }

gridSearch = GridSearchCV(DecisionTreeClassifier(), tree_parameters_grid, cv=5, scoring="roc_auc", return_train_score=True)
gridSearch.fit(X_dev_np, y_dev_np)
top_resultados(gridSearch, "Decision Tree GridSearch")


randomSearch = RandomizedSearchCV(DecisionTreeClassifier(), param_distributions=tree_parameters_random, n_iter=100, cv=5, scoring="roc_auc", refit=True)
randomSearch.fit(X_dev_np, y_dev_np)
top_resultados(randomSearch, "Decision Tree RandomSearch")


Conclusiones de Tree:

Los mejores resultados obtenidos tanto en grid como en random search es para arboles de altura entre 3 y 5. Además encontramos que para arboles de profundidad mayor a 10, el árbol que se obtiene esta overfitteado, para cualquiera de los otros parametros. El splitter random da una mejor relación entre sesgo y varianza. Los criterios para decidir el slipt no mostraron influir demasiado en los resultados.

Analizando los resultados obtenidos observamos que el factor que más influye es la profundidad del árbol.


Elección de Parametros para LDA:

GridSearch:
- solver: utilizaremos los criterios de descomposición en valores singulares'svd', cuadrados minimos 'lsqr' y autovectores 'eigen'
- shrinkage: se combinará con lsqr y eigen con valores de 0.1, 0.5, 1 y none
- n_components: es la cantidad de classes sobre las que se hará reducción de la dimensionalidad

RandomSearch:
Se usarán valores para shrinkage y n_components dentro de los mismos rangos que con GridSearch, pero seleccionando más valores dentro de éstos.

In [None]:
lda_parameters_grid = [{'solver': ['lsqr', 'eigen'], 'shrinkage': [0, 0.5, 0.7, 1, 'auto'], 'n_components': [0, 1, 5, 10, 20, 50, 100, 150]}]

lda_parameters_random = {'solver': ['lsqr', 'eigen'], 'shrinkage': np.arange(0, 1, 0.000001).tolist() + ['auto'], 'n_components': np.arange(1, 50, 1)}

grid_LDA_result = doSearch('grid', LinearDiscriminantAnalysis(), lda_parameters_grid)
top_resultados(grid_LDA_result, "LDA GridSearch")

random_LDA_result = doSearch('random', LinearDiscriminantAnalysis(), lda_parameters_random)
top_resultados(random_LDA_result, "LDA RandomSearch")

### Conclusiones de LDA:

En los casos de GridSearch, los modelos con shrinkage 1.0 parecen tener mucho menos overfitting que aquellos con shrinkage 0.5, mientras que variar otros paramétros aparentemente no afecta los resultados de manera significativa.

Utilizando RandomSearch pudimos profundizar sobre estas variaciones de shrinkage para intentar mejorar los resultados. Sin embargo no parecen haber contribuido nada nuevo, simplemente cuánto más cerca de 0.5 estamos tenemos mayor overfitting, mientras que a medida que nos acercamos a 1.0 se reduce éste, manteniendo un score de validation razonable.

El uso de shrinkage "auto" no parece aportar nada nuevo a los resultados.

Naive Bayes

In [None]:
grid_gauss_result = doSearch('grid', GaussianNB(), {})
top_resultados(grid_gauss_result, "Naive Gauss GridSearch")

Conclusiones de Naive Bayes:
Los resultados obtenidos para Naive Bayes son relativamente buenos, esto podríamos usarlos para tener una intuición de cuánta dependencia existe entre los atributos (dado que naive bayes asume una independencia total entre los atributos).

Elección de Parametros para SVM:

GridSearch:
- C: es el parametro de penalización a los errores se probaremos con 0.1 daremos poca tolerancia al error a fin de que encuentre un mejor hiperplano, 1.0 es el valor por deafult y 1000 para dejar poca tolerancia a los errores
- kernel : probaremos con ‘linear’, ‘poly’, ‘rbf’ y ‘sigmoid’
- gamma: se usará en auto
- degree: para 'poly' se tomará de grado 3

RandomSearch:
Se generan modelos con una cobertura más alta y más detallada de gammas y C, pero se mantiene el resto de los hiperparámetros parecidos a los originales de grid search.

In [None]:
svm_parameters_grid = [{'kernel': ['rbf', 'poly', 'sigmoid'], 'gamma': [1e-1, 1e-2,1e-3, 1e-4], 'C': [0.1, 1, 1000]}, {'kernel': ['linear'], 'C': [0.1, 1, 1000]}]
svm_parameters_random = {'kernel': ['rbf', 'poly', 'sigmoid'], 'gamma':sp.stats.expon(scale=.1),'C': np.arange(0.1, 1000, 0.0001)}


grid_SVM_result = doSearch('grid', SVC(), svm_parameters_grid)
top_resultados(grid_SVM_result, "SVM GridSearch")

random_SVM_result = doSearch('random', SVC(), svm_parameters_random)
top_resultados(random_SVM_result, "SVM RandomSearch")

Conclusiones de SVM:

Observando los resultados vemos que tomando un kernel sigmoide se obtienen buenos resultados con una



ESTO DE ACA ABAJO YA NO VA




#### Conclusiones Grid Search

##### KNN 
    Se buscó probar variando la forma en que se determinan los pesos de los vecinos mas cercanos, para determinar cuál es más performante, uniform parece superar ampliamente a distance en este caso, aparte se testeó con varios números de vecinos más cercanos, y por lo que se ve los mejores resultados se dan cuando se tiene un número de vecinos más cercanos relativamente grande (los buenos resultados se obtienen combinando uniform con numeros grandes de vecinos, entre 20 - 100)
    En cuanto al parametro p, que define la fórmula de distancia a utilizar, no encontramos diferencias significativas entre la distancia manhattan y la euclidiana.
    
    El GridSearch parece presentar mejores resultados, aunque extrañamente el training score supera en muchos casos al validation.
    
    
##### Árboles de Decisión 

    Se decidió hacer un intento de testear asignar pesos balanceados las clases testeadas (class_weight="balanced"), si bien no pareció influir mucho en el resultado final. Sin embargo se podría suponer que el uso de este parámetro tiene una influencia significativa si se tiene un conocimiento más en profundidad acerca de los atributos analizados y su influencia en el resultado final (maldad o no).

    Se decidió probar variar los max_features para decidir si con esto se podría volver más manejable la posibilidad de overfitting en los árboles más altos, sin embargo no se notó ninguna diferencia significativa, ya que parece que max_features parece mantenerse como el superior.

    Los árboles con alturas más bajas parecen tener mejores resultados, mientras que los de mayor altura presentan un overfitting cada vez más pronunciado
    
    Usar GridSearch no provee mejoras significativas en los casos observados.

##### LDA 
    
    Los solvers, sin embargo, no parecen afectar en este caso

    LDA presenta una mejora significativa cuando se cuenta con shrinkage = 1.0

##### Naive Bayes
    Si bien Naive-Bayes no ofrece uno de los mejores resultados y no es capaz de detectar ni incorporar ninguna dependencia entre atributos a sus predicciones, se puede ver que es preferible respecto a los árboles de decisión (por ejemplo), dado que no sólo predice mejor al conjunto de testeo, si no que es un algoritmo altamente escalable con una implementación simple. Se lo podría utilizar como una heurística para explorar el conjunto de entrenamiento. Si los atributos son muy dependientes entre sí, en teoría el modelo no debería ser bueno prediciendo.
##### SVM 

    Para SVM variamos los hiperparámetros kernel, gamma y C.
    En primer lugar podemos ver que el kernel polinomial genera una curva que se ajusta demasiado a las instancias de entrenamiento, perdiendo frente a los otros dos tipos de kernel.
    Por otra parte podemos ver que aumentar C hasta cierto punto suele verse acompañado de una mejora en la validación. Un C demasiado grande únicamente logra ajustar de más a los datos de entrenamiento. Pareciera ser que un C entre 10 y 100 sería el ideal.
    Un valor de gamma bajo genera más estabilidad en la frontera de divisón, dado que más puntos se toman en cuenta para calcularla. Para los gammas testeados, parecería ser que el 0.001 es el mejor.

## Ejercicio 4: 
### Diagnóstico Sesgo-Varianza. 

En este punto, se pide inspeccionar dos de sus mejores modelos encontrados hasta ahora: el mejor modelo de tipo árbol de decisión y el mejor de tipo SVM. Para ello:

1. Graficar curvas de complejidad para cada modelo, variando la profundidad en el caso de árboles, y el hiperparámetro C en el caso de SVM. Diagnosticar cómo afectan al sesgo y a la varianza esos dos hiperparámetros.
2. Graficar curvas de aprendizaje para cada modelo. En base a estas curvas, sacar conclusiones sobre si los algoritmos parecen haber alcanzado su límite, o bien si aumentar la cantidad de datos debería ayudar.
3. Construir un modelo RandomForest con 200 árboles. Explorar para qué sirve el hiperparámetro max_features y cómo afecta a la performance del algoritmo mediante una curva de complejidad. Explicar por qué creen que se dieron los resultados obtenidos. Por último, graficar una curva de aprendizaje sobre los parámetros elegidos para determinar si sería útil o no conseguir más datos (usar  grid search para encontrar una buena combinación de parámetros).  


**Atención**: Tener en cuenta que debemos seguir utilizando ROC AUC como métrica para estas curvas.

**ver**: http://scikit-learn.org/stable/modules/learning_curve.html#learning-curve

----
**EJERCICIO EXTRA:** Utilizar RandomizedSearchCV para explorar la performance del algoritmo de Gradient Boosting y comparar con los resultados obtenidos en el punto (c).


----




In [None]:
def plot_validation_curve(train_scores, validation_scores, param_range, xlabel="X", title="Curva de complejidad"):
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    validation_scores_mean = np.mean(validation_scores, axis=1)
    validation_scores_std = np.std(validation_scores, axis=1)

    plt.figure(figsize=(15,5))
    plt.ylim(0.0,1.1)
    
    plt.title(title)
    #plt.xlabel(xlabel)
    plt.ylabel("Score")
    #plt.xticks(param_range)
    plt.yticks(np.arange(0.0, 1.1, 0.1))
    
    plt.semilogx(param_range, train_scores_mean, label="Training score", color="darkorange", lw=2)
    plt.semilogx(param_range, validation_scores_mean, label="Validation score", color="navy", lw=2)
    
    marker_line_width = 0.005
    plt.axhspan(0.8 - marker_line_width/2, 0.8 + marker_line_width/2, alpha=0.5)
    
    plt.legend(loc='lower right', bbox_to_anchor=(1.0, 1.0))
    
    plt.show()

#    None	gini	2	auto	0.6746	0.6997
# "Seleccionamos el que consideramos uno de los mejores arboles obtenidos en GridSearch del ej 3"
depths_to_try = np.arange(1, 1000, 1)
decision_tree_train_scores, decision_tree_validation_scores = \
    validation_curve( \
        DecisionTreeClassifier(max_features=40, criterion="gini", class_weight="balanced"), \
        X_dev_np, y_dev_np, \
        "max_depth", \
        depths_to_try, \
        cv=5, \
        scoring="roc_auc" \
    )

cs_to_try = [pow(2,x) for x in range(-12,12)]
svm_train_scores, svm_validation_scores = \
    validation_curve( \
        SVC(gamma=0.001, kernel='rbf'), \
        X_dev_np, y_dev_np, \
        "C", \
        cs_to_try, \
        cv=5, \
        scoring="roc_auc", \
        n_jobs = 1 \
    )

plot_validation_curve(decision_tree_train_scores, decision_tree_validation_scores, depths_to_try, xlabel="Depth", title="Curva de Complejidad con Arboles de Aprendizaje")
plot_validation_curve(svm_train_scores, svm_validation_scores, cs_to_try, xlabel="C", title="Curva de Complejidad con SVM")

### Árboles de Aprendizaje
El Depth claramente aumenta la complejidad de los árboles de manera muy rápida, lo cual lleva a modelos con un sesgo cada vez menor pero en general pareciera tener una varianza bastante alta a partir de ciertas alturas (alrededor de 9), algo que parece correlacionado con el grado de overfitting que presenta el árbol.

Se ve de manera bastante bien definida que en los valores cercanos al 10 ya se llega a un nivel de varianza demasiado alto, esto se profundiza a medida que se acerca a depth = 1000. 

Basados en estos resultados, podemos decir que un valor razonable para tomar como max_depth sería 5.

### SVM

El C parece tener una influencia que escala de manera menos brusca en el overfitting y en la varianza presentada por los modelos.

Sin embargo, está claro que el sesgo va disminuyendo a medida que se aumenta el C y la varianza va aumentando, debido a que estamos condiciando al algoritmo a darle una mayor importancia a tener en cuenta a minions que con menor C se pueden considerar ignorables.

Pareciera que la zona de los mejores Cs antes de comenzar a caer en calidad sería la zona con los Cs entre 1 y 10. En particular C = 4 se ve como una buena opción.

In [None]:
def plot_learning_curve(train_scores, validation_scores, param_range, title="Curva de aprendizaje"):
    train_scores_mean = np.mean(train_scores, axis=1)
    train_scores_std = np.std(train_scores, axis=1)
    validation_scores_mean = np.mean(validation_scores, axis=1)
    validation_scores_std = np.std(validation_scores, axis=1)

    plt.figure(figsize=(15,5))
    plt.ylim(0.0,1.1)
    
    plt.title(title)
    plt.xlabel("n")
    plt.ylabel("Score")
    
    
    plt.plot(param_range, train_scores_mean, label="Training score",
                 color="darkorange")
    plt.plot(param_range, validation_scores_mean, label="Cross-validation score",
             color="navy")
    
    marker_line_width = 0.005
    plt.axhspan(0.8 - marker_line_width/2, 0.8 + marker_line_width/2, alpha=0.5)
    
    plt.legend(loc='lower right', bbox_to_anchor=(1.0, 1.0))
    
    plt.show()
    
#    None	gini	2	auto	0.6746	0.6997
# "Seleccionamos el que consideramos uno de los mejores arboles obtenidos en GridSearch del ej 3"
dtree_train_sizes_abs, decision_tree_train_scores, decision_tree_validation_scores = \
    learning_curve( \
        DecisionTreeClassifier(max_features="auto", criterion="gini", max_depth=5), \
        X_dev_np, y_dev_np, \
        train_sizes = np.arange(0.1, 1., 0.02), \
        cv=5, \
        scoring="roc_auc" \
    )

# {'kernel': ['rbf', 'poly', 'sigmoid'], 'gamma':sp.stats.expon(scale=.1),'C': sp.stats.expon(scale=10)}
# 0.0001	rbf	0.7679	0.8707
svm_train_sizes_abs, svm_train_scores, svm_validation_scores = \
    learning_curve( \
        SVC(gamma=0.0001, kernel='rbf', C=4), \
        X_dev_np, y_dev_np, \
        train_sizes = np.arange(0.1, 1., 0.02), \
        cv=5, \
        scoring="roc_auc", \
    )

plot_learning_curve(decision_tree_train_scores, decision_tree_validation_scores, dtree_train_sizes_abs, title="Curva de Aprendizaje con Arboles de Decisión")
plot_learning_curve(svm_train_scores, svm_validation_scores, svm_train_sizes_abs, title="Curva de Aprendizaje con SVM")

### Árboles de Decisión

En los árboles de decisión parece que hay una tendencia pronunciada a reducir la varianza, pero el sesgo se mantiene bastante malo a lo largo de todos los n's analizados y no parece que haya una tendencia a mejorar con mayores cantidades de datos de entrenamiento, por lo que no consideramos que más datos ayuden a mejorar los resultados.

### SVM

Inicialmente el sesgo de svm es bastante grande y con cantidades menores a 130 aproximadamente es muy poco confiable.

En base al análisis de las curvas de aprendizaje pareciera que SVM probablemente se beneficiaría de tener más datos debido a que los scorings (tanto de validación como de entrenamiento) presentan una tendencia a crecer.

La varianza parece haberse estabilizado en un rango de valores relativamente bajo, aunque crece un poco a partir de aproximadamente n = 200.

Es probable que, en este caso, aumentar la cantidad de datos ayude a obtener mejores resultados.

In [None]:
forest_parameters = [{'max_depth': [None, 3, 8, 15, 30, 50] , 'criterion': ['gini', 'entropy']}]
grid_forest_result = doSearch('grid', RandomForestClassifier(n_estimators=200), forest_parameters)
top_resultados(grid_forest_result, "Random Forest")

Seleccionamos Random Forest con max_depth=8. Pensando en la Navaja de Occam, es la opción más simple y tiene buenos resultados. Por otrol lado, criterio=entropy produce scores marginalmente mejores.

In [None]:
max_features_to_try = np.arange(1, 200, 4)
random_forest_train_scores, random_forest_validation_scores = \
    validation_curve( \
        RandomForestClassifier(n_estimators=200, criterion="entropy", max_depth=8), \
        X_dev_np, y_dev_np, \
        "max_features", \
        max_features_to_try, \
        cv=5, \
        scoring="roc_auc" \
    )

plot_validation_curve(random_forest_train_scores, random_forest_validation_scores, max_features_to_try, xlabel="Max Features", title="Curva de Complejidad con Random Forest")


### Max features

#### Explicación 

max_features determina la cantidad de atributos que deben observar los árboles cuando se intenta determinar cuál es la mejor manera de separar los valores en cada nodo según los valores de sus atributos.

Esto podría resultar beneficioso en el uso de muchos árboles al mismo tiempo para poder analizar los objetos desde diferentes "perspectivas" y luego proceder a votar. De otra manera podríamos terminar con muchos árboles parecidos sin que ninguno de estos pueda contribuir nada muy distinto a la hora de clasificar un minion.

#### Análisis

La curva de complejidad de Random Forest no parece variar mucho aumentando el límite, si bien los scores son mejores a partir de max_features=10.

Teniendo en cuenta que estamos usando 200 árboles, cada uno mirando diferentes subgrupos de los 200 features, es posible que variaciones en max_features afecten poco debido a que hay una alta probabilidad de que todos los features sean mirados por algunos de los 200 árboles, por lo que la gran mayoría terminarían incidiendo en los resultados.

Basados en la curva dibujada, un valor posible para elegir sería max_features=15.

In [None]:
random_forest_train_sizes_abs, random_forest_train_scores, random_forest_validation_scores = \
    learning_curve( \
        RandomForestClassifier(n_estimators=200, criterion="gini", max_depth=8, max_features=15), \
        X_dev_np, y_dev_np, \
        train_sizes = np.arange(0.1, 1., 0.02), \
        cv=5, \
        scoring="roc_auc", \
    )

plot_learning_curve(random_forest_train_scores, random_forest_validation_scores, random_forest_train_sizes_abs, title="Curva de Aprendizaje con Random Forest con Depth bajo")

Se consiguió un sesgo relativamente bueno desde el principio. Sin embargo, la varianza parece reducirse bastante lentamente aunque se podría probar con más datos para ver si la tendencia a reducir la varianza se dibuja más pronunciadamente con más datos.

## Competencias

La entrega del trabajo estará acompañada de una competencia en la cual deberán poner a prueba su mejor modelo y sobre todo, su capacidad para estimar sus resultados. 

Su tarea será estimar la performance (AUC ROC) que tendrá su mejor modelo en datos de evaluación (X_competencia). 

Para ello, deberán predecir las probabilidades de las distintas instancias con su modelo, enviarnos dichas probabilidades junto a una estimación con 4 decimales de cuál será el AUC ROC resultante y calcularemos el resultado real. El grupo que consiga acercarse más al valor real, será el grupo ganador.  

Recomendamos no perder de vista esta competencia en el momento de separar los datos en los primeros puntos. 

Para esto, junto con la entrega del informe, deberán enviar un archivo en formato csv con las columnas “index” y “output” (ver ejemplo de archivo en: [y_competencia_ejemplo.csv](https://github.com/pbrusco/aa-notebooks/blob/master/TP1/y_competencia_ejemplo.csv)) y un valor esperado de AUC ROC. 


## Entrega
- Contarán con un esqueleto en formato Jupyter Notebook en donde tendrán que completar las celdas faltantes (ya sea con explicaciones y gráficos o código). 
- El notebook final deberá ser entregado en formatos .html e .ipynb. Es necesario que los resultados puedan reproducirse al ejecutar todas las celdas en orden (Kernel - Restart and Run All) utilizando las bibliotecas requeridas en el archivo: requirements.txt del repositorio. 
- Tienen tiempo hasta las 23:59hs del día miércoles 17/10/2018. La entrega se debe realizar a través del campus virtual y debe contener el informe.
- El trabajo deberá elaborarse en grupos de 3 personas.
- Se podrán pedir pruebas de integridad y autoría; es decir, verificar que la salida solicitada es fruto del modelo presentado y que el modelo fue construido según lo requerido en este enunciado.
- La evaluación será grupal y se basará en la calidad del informe (presentación, claridad, prolijidad); la originalidad, practicidad y coherencia técnica de la solución; la corrección y solidez de las pruebas realizadas.
- En el primer parcial se incluirá una pregunta sobre la solución entregada. Esa pregunta no influirá en la nota del parcial, pero sí en la nota individual del TP1.
- La participación en la competencia es obligatoria. De todas maneras, el resultado no incidirán en la nota de la materia.
- Los ejercicios extra son opcionales para aprobar el TP, pero son obligatorios para promocionar la materia.


In [None]:
#  n_neighbors p weights mean_score_validation mean_score_training
#  71 2 uniform 0.7674 0.7627
kneighbors = KNeighborsClassifier(n_neighbors=71, p=2, weights="uniform")

X_eval_np = np.array(X_eval)
y_eval_np = np.array(y_eval).ravel()

kneighbors.fit(X_dev_np, y_dev_np)
# kneighbors.fit(X_eval_np, y_eval_np)
# lda.fit(X_eval_np, y_eval_np)

y_prediction_knn = kneighbors.predict(X_eval_np)
print("Scoring esperado para la competencia: ", roc_auc_score(y_eval_np, y_prediction_knn))

kneighbors_competition = KNeighborsClassifier(n_neighbors=71, p=2, weights="uniform")
kneighbors_competition.fit(np.array(X), np.array(y).ravel())

prediction = pd.DataFrame(kneighbors_competition.predict(X_competencia))
prediction.columns = ['output']
prediction.to_csv('y_competencia.csv', encoding='utf-8', index_label="index")