## Proyecto Titanic
### Parte 1
Ruben Gonzalez
Statistical Learning I

In [1]:
import numpy as np 
import tensorflow as tf 
import matplotlib.pyplot as plt 
import pandas as pd 
from sklearn.model_selection import train_test_split

In [2]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import precision_score

In [3]:
dataInicial = pd.read_csv('data_titanic_proyecto.csv')
dataInicial.head()

Unnamed: 0,PassengerId,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,passenger_class,passenger_sex,passenger_survived
0,1,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,,S,Lower,M,N
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Upper,F,Y
2,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,,S,Lower,F,Y
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,S,Upper,F,Y
4,5,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,,S,Lower,M,N


### Feature engineering de la data
El passenger ID es solamente un correlativo por lo que se procede a eliminar del dataset. El nombre de la persona no tiene relevancia en el analisis de quien se salvo o no por lo que tambien se quita de la data

In [4]:
data=dataInicial.copy()
data.head()

Unnamed: 0,PassengerId,Name,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,passenger_class,passenger_sex,passenger_survived
0,1,"Braund, Mr. Owen Harris",22.0,1,0,A/5 21171,7.25,,S,Lower,M,N
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1,0,PC 17599,71.2833,C85,C,Upper,F,Y
2,3,"Heikkinen, Miss. Laina",26.0,0,0,STON/O2. 3101282,7.925,,S,Lower,F,Y
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1,0,113803,53.1,C123,S,Upper,F,Y
4,5,"Allen, Mr. William Henry",35.0,0,0,373450,8.05,,S,Lower,M,N


In [5]:
data=data.loc[:, data.columns != 'PassengerId']
data=data.loc[:, data.columns != 'Name']
data.head()

Unnamed: 0,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,passenger_class,passenger_sex,passenger_survived
0,22.0,1,0,A/5 21171,7.25,,S,Lower,M,N
1,38.0,1,0,PC 17599,71.2833,C85,C,Upper,F,Y
2,26.0,0,0,STON/O2. 3101282,7.925,,S,Lower,F,Y
3,35.0,1,0,113803,53.1,C123,S,Upper,F,Y
4,35.0,0,0,373450,8.05,,S,Lower,M,N


Ahora se buscaran las columnas que presentan valores nulos

In [6]:
data.columns[data.isna().any()].tolist()

['Age', 'Cabin', 'Embarked']

Se crea una funcion que valide que tantos valores NAN hay en cada columna, esto para posterior analisis

In [7]:
def PorcentajeNan(ColumnaNombre):
    return data[ColumnaNombre].isnull().sum()/len(data)

In [8]:
PorAge=PorcentajeNan('Age')
PorAge

0.19865319865319866

In [9]:
PorCab=PorcentajeNan('Cabin')
PorCab

0.7710437710437711

In [10]:
PorEmbarked=PorcentajeNan('Embarked')
PorEmbarked

0.002244668911335578

Se realiza un analisis de la distribucion que presenta Age para llenar los datos nulos

In [11]:
data=data.fillna({'Age':int(np.random.normal(data["Age"].mean(), data["Age"].std()))})
data.head()

Unnamed: 0,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,passenger_class,passenger_sex,passenger_survived
0,22.0,1,0,A/5 21171,7.25,,S,Lower,M,N
1,38.0,1,0,PC 17599,71.2833,C85,C,Upper,F,Y
2,26.0,0,0,STON/O2. 3101282,7.925,,S,Lower,F,Y
3,35.0,1,0,113803,53.1,C123,S,Upper,F,Y
4,35.0,0,0,373450,8.05,,S,Lower,M,N


El porcetaje de valores nulos en Cabin es demasiado alto por lo que llenarlo con valores podria traer imprecision a los modelos a realizar por lo que se descarta esa columna.

In [12]:
data=data.loc[:, data.columns != 'Cabin']
data.head()

Unnamed: 0,Age,SibSp,Parch,Ticket,Fare,Embarked,passenger_class,passenger_sex,passenger_survived
0,22.0,1,0,A/5 21171,7.25,S,Lower,M,N
1,38.0,1,0,PC 17599,71.2833,C,Upper,F,Y
2,26.0,0,0,STON/O2. 3101282,7.925,S,Lower,F,Y
3,35.0,1,0,113803,53.1,S,Upper,F,Y
4,35.0,0,0,373450,8.05,S,Lower,M,N


La columna Embarked es mas bien clasificatoria y no numerica, entonces se obtienen todos los valores posibles y la cantidad de estos y se obtiene el que mas se repite:

In [13]:
r= data["Embarked"].value_counts()
e=np.argmax(r)
e

The current behaviour of 'Series.argmax' is deprecated, use 'idxmax'
instead.
The behavior of 'argmax' will be corrected to return the positional
maximum in the future. For now, use 'series.values.argmax' or
'np.argmax(np.array(values))' to get the position of the maximum
row.
  return bound(*args, **kwds)


'S'

Este valor llenara los NAN de esa columna

In [14]:
data=data.fillna({'Embarked':e})
data.head()

Unnamed: 0,Age,SibSp,Parch,Ticket,Fare,Embarked,passenger_class,passenger_sex,passenger_survived
0,22.0,1,0,A/5 21171,7.25,S,Lower,M,N
1,38.0,1,0,PC 17599,71.2833,C,Upper,F,Y
2,26.0,0,0,STON/O2. 3101282,7.925,S,Lower,F,Y
3,35.0,1,0,113803,53.1,S,Upper,F,Y
4,35.0,0,0,373450,8.05,S,Lower,M,N


In [15]:
data.columns[data.isna().any()].tolist()

[]

Ahora se remueven todas aquellas columnas categoricas para colocarles valores numericos, esto para poder ser procesados por los algoritmos predictivos. Las columnas categoricas son Embarked, passenger_class, passenger_sex y passenger_survived

In [16]:
r= data["passenger_class"].value_counts()
r

Lower     491
Upper     216
Middle    184
Name: passenger_class, dtype: int64

Tanto passenger_class como Embarked tienen mas de 3 valores posibles, con estas columnas se procedera a obtener sus valores dummies.

In [17]:
data = pd.get_dummies(data, columns=["Embarked"])
data = pd.get_dummies(data, columns=["passenger_class"])

In [18]:
data.head()

Unnamed: 0,Age,SibSp,Parch,Ticket,Fare,passenger_sex,passenger_survived,Embarked_C,Embarked_Q,Embarked_S,passenger_class_Lower,passenger_class_Middle,passenger_class_Upper
0,22.0,1,0,A/5 21171,7.25,M,N,0,0,1,1,0,0
1,38.0,1,0,PC 17599,71.2833,F,Y,1,0,0,0,0,1
2,26.0,0,0,STON/O2. 3101282,7.925,F,Y,0,0,1,1,0,0
3,35.0,1,0,113803,53.1,F,Y,0,0,1,0,0,1
4,35.0,0,0,373450,8.05,M,N,0,0,1,1,0,0


Para las columnas passenger_sex y passenger_survived, dado que solo tienen 2 valores posibles entonces se trabajara categorizando las columnas en 1 y 0. Para la columna ticket dado que son muchas categorias tambien se usara este metodo

In [19]:
data["passenger_sex"]=data["passenger_sex"].astype("category").cat.codes
data["passenger_survived"]=data["passenger_survived"].astype("category").cat.codes
data["Ticket"]=data["Ticket"].astype("category").cat.codes

In [20]:
data.head()

Unnamed: 0,Age,SibSp,Parch,Ticket,Fare,passenger_sex,passenger_survived,Embarked_C,Embarked_Q,Embarked_S,passenger_class_Lower,passenger_class_Middle,passenger_class_Upper
0,22.0,1,0,523,7.25,1,0,0,0,1,1,0,0
1,38.0,1,0,596,71.2833,0,1,1,0,0,0,0,1
2,26.0,0,0,669,7.925,0,1,0,0,1,1,0,0
3,35.0,1,0,49,53.1,0,1,0,0,1,0,0,1
4,35.0,0,0,472,8.05,1,0,0,0,1,1,0,0


### Parte 1: Entrenamiento y validación y selección(Nivel de exactitud mínimo deseado: 80%)

Nota: 
En los casos en donde se deba calcular métricas de evaluación,con objetivos de simplificar el problema se puede usar cualquier herramienta , por ejemplo sklearn en el subpaquete metrics:
* https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html
* https://scikit-learn.org/stable/modules/model_evaluation.html


### Train-val-test split 
El primer paso es separar los datos en entrenamiento, validación y pruebas:

* Separar datos en entrenamiento y pruebas. Por ejemplo usando: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
* Tomar una porción de datos de entrenamiento del paso anterior para validación. Puede ser aplicando nuevamente https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
	
Esto genera en resumen:
1.	Conjunto de entrenamiento 
2.	Conjunto de validación
3.	Conjunto de pruebas.


In [21]:
X_train = data.loc[:, data.columns != 'passenger_survived']
Y_train = data['passenger_survived']

Primero obtenemos el 20% para test

In [22]:
X_train, X_test, Y_train, Y_test = train_test_split(X_train, Y_train, test_size=0.20, random_state=19)

In [23]:
X_test.head()

Unnamed: 0,Age,SibSp,Parch,Ticket,Fare,passenger_sex,Embarked_C,Embarked_Q,Embarked_S,passenger_class_Lower,passenger_class_Middle,passenger_class_Upper
624,21.0,0,0,495,16.1,1,0,0,1,1,0,0
524,18.0,0,0,217,7.2292,1,1,0,0,1,0,0
73,26.0,1,0,204,14.4542,1,1,0,0,1,0,0
828,18.0,0,0,442,7.75,1,0,1,0,1,0,0
398,23.0,0,0,146,10.5,1,0,0,1,0,1,0


In [24]:
Y_test.head()

624    0
524    0
73     0
828    1
398    0
Name: passenger_survived, dtype: int8

Iteramos nuevamente para obtener el 20% de validation

In [25]:
X_train, X_val, Y_train, Y_val = train_test_split(X_train, Y_train, test_size=0.20, random_state=19)

In [26]:
X_val.head()

Unnamed: 0,Age,SibSp,Parch,Ticket,Fare,passenger_sex,Embarked_C,Embarked_Q,Embarked_S,passenger_class_Lower,passenger_class_Middle,passenger_class_Upper
275,63.0,1,0,71,77.9583,0,0,0,1,0,0,1
217,42.0,1,0,142,27.0,1,0,0,1,0,1,0
861,21.0,1,0,221,11.5,1,0,0,1,0,1,0
441,20.0,0,0,305,9.5,1,0,0,1,1,0,0
328,31.0,1,1,423,20.525,0,0,0,1,1,0,0


In [27]:
Y_val.head()

275    1
217    0
861    0
441    0
328    1
Name: passenger_survived, dtype: int8


Ensemble learning:
Se aplicará ensemble learning para crear una "votación mayoritaria" con distintos tipos de modelos, con el objetivo de simplificar el problema 2 de estos modelos se harán usando scikit-learn y su función   .fit(x,y) 

Recordar  hacer muestreo bootstrap




El ensamble estará compuesto de : :
*	Árbol de decisión con sklearn
*	SVM con sklearn
*	Naive bayes con numpy y/o pandas
*	Reg. logística binaria(sigmoid)  en Tensorflow con regularización (probar L1, L2 y distintos valores del factor de regularización y elegir el mejor) y mini-batch gradient descent usando tamaño de mini-batch como hyper-parametro.

* Debemos crear la cadena de configuración que describa cómo se realizó cada experimento,  variables usadas, valores de hyper-parámetros y tipo de modelo usado (similar al config string que hemos usado en tensorboard)    por ejemplo:
        * Se entrena un regresión .logística con lr=0.01 ,factor de regularización = 0.1 usando las variables variables var1,var2,var3, la cadena podría ser: regLog_lr=0.01_reg=0.1_var1_var2_var3. Esta cadena nos servirá después para identificar cada experimento, y anotar en una bitácora( excel o csv)  las métricas de evaluación de cada uno.
        * Cada uno de los 4 tipos de modelos pueden requerir más de 1 experimento, con distintos hyper-parámetros o variables usadas, diagnosticamos overfitting u underfitting y realizamos acciones para atacarlos.
        * Por cada experimento debemos guardar en un excel o csv la cadena de configuración y las métricas de evaluación : accuracy,error, precisión,recall,f1-score , estas serán evaluados en el dataset de entrenamiento y el de validación. Es posible usar sklearn(o cualquier otro método que facilite el cálculo) para las métricas de evaluación y Pandas para guardar el csv o excel.
Este excel o csv no debe ser sobreescrito  en cada experimento si no que deben agregarse nuevas filas, esta será la bitácora de experimentos. 


In [275]:
#Metodo usado para el registro de valores de los modelos en el archivo csv
def guardaExperimento(config,modelo,y_real,Y_hat, testing=False):
    if testing == False:
        try:
            df = pd.read_csv("modelos.csv", index_col=0)
        except:
            df = pd.DataFrame([], columns = ["Config" , "Accuracy", "Error" , "Precision","Recall","F1"])

        df.append({"Modelo" : modelo,
                      "Config" : config , 
                      "Accuracy" : accuracy_score(y_real, Y_hat), 
                      "Error":mean_squared_error(y_real, Y_hat), 
                      "Precision":precision_score(y_real, Y_hat),
                      "Recall":recall_score(y_real, Y_hat),
                      "F1":f1_score(y_real, Y_hat)},ignore_index=True).to_csv("modelos.csv", sep=",", encoding="utf-8")
    else:
        df=pd.DataFrame(data=[accuracy_score(y_real, Y_hat)], columns=["Accuracy"])
        df["Error"]=pd.Series(mean_squared_error(y_real, Y_hat))
        df["Precision"]=pd.Series(precision_score(y_real, Y_hat))
        df["Recall"]=pd.Series(recall_score(y_real, Y_hat))
        df["F1"]=pd.Series(f1_score(y_real, Y_hat))
        return df

#### Arbol de decision con skitlearn

In [29]:
from sklearn import tree

In [182]:
def EntrenaArbol(X_Entrena, Y_Entrena, X_Valida, Y_Valida,Incriterio,Testing=False, MaxDepth=None, MaxFeatures=None, MaxLeafNodes=None):
    treeClassifier = tree.DecisionTreeClassifier(criterion=Incriterio,max_depth=MaxDepth, max_features=MaxFeatures,max_leaf_nodes=MaxLeafNodes)
    treeClassifier.fit(X_Entrena, Y_Entrena)
    Y_hat = treeClassifier.predict(X_Valida)
    if Testing == False:
        #Por la naturaleza del modelo, esta cadena siempre tendra la misma configuracion
        cadenaConfig="criterio="+Incriterio+"_maxDepth="+str(MaxDepth)+"_maxFeatures="+str(MaxFeatures)+"_maxLeafNodes="+str(MaxLeafNodes)
    
        #Se almacena el experimento
        guardaExperimento(cadenaConfig,"DecisionTree", Y_Valida, Y_hat)
        return treeClassifier
    else:
        return Y_hat

In [183]:
valor=EntrenaArbol(X_train, Y_train, X_val, Y_val,"gini")

In [184]:
valor

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

#### SVM con SkitLearn

In [33]:
from sklearn import svm

In [116]:
def EntrenaSVM(X_Entrena, Y_Entrena, X_Valida, Y_Valida, Regularization, InKernel, Testing=False):
    modelo = svm.SVC(kernel=InKernel,C=Regularization)
    modelo.fit(X_Entrena, Y_Entrena)
    Y_hat = modelo.predict(X_Valida)
    if Testing == False:
        cadenaConfig="kernel="+InKernel+"_reg="+str(Regularization)
        guardaExperimento(cadenaConfig,"SVM",Y_Valida,Y_hat)
        return modelo
    else:
        return Y_hat

In [78]:
valorSVM=EntrenaSVM(X_train, Y_train, X_val, Y_val,2,"poly")

In [76]:
valorSVM

SVC(C=1, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

#### Naive Bayes

In [48]:
from sklearn.preprocessing import StandardScaler
from sklearn.naive_bayes import GaussianNB

In [151]:
def EntrenaNB(X_Entrena, Y_Entrena, X_Valida, Y_Valida, Testing=False):
    Xa = sc.fit_transform(X_Entrena)
    Xt = sc.transform(X_Valida)
    classifier = GaussianNB()
    classifier.fit(Xa, Y_Entrena)
    Y_hat = classifier.predict(Xt)
    
    if Testing== False:
        cadenaConfig="Naive_Bayes"
        guardaExperimento(cadenaConfig,"NaiveBayes",Y_Valida,Y_hat)
        return classifier
    else:
        return Y_hat

In [152]:
valorNB=EntrenaNB(X_train, Y_train, X_val, Y_val)

#### Regresion Logistica

In [63]:
#---Aqui se codificara lo de tensorflow de regresion logistica

GaussianNB(priors=None, var_smoothing=1e-09)

Funcion para obtener el mejor en base a un modelo

In [108]:
def MejorModelo(tipoModelo,dataset):
    output=dataset[dataset["Modelo"]==tipoModelo]
    return dataset.iloc[np.argmax(output.Accuracy),]
    

In [88]:
dataModelos

Unnamed: 0.1,Unnamed: 0,Config,Accuracy,Error,Precision,Recall,F1,Modelo
0,0,criterio=gini_max_depth=None_max_features=None...,0.776224,0.223776,0.696429,0.722222,0.709091,DecisionTree
1,1,criterio=entropy_max_depth=None_max_features=N...,0.776224,0.223776,0.703704,0.703704,0.703704,DecisionTree
2,2,kernel=linear_reg=0.1,0.748252,0.251748,0.695652,0.592593,0.64,SVM
3,3,kernel=linear_reg=0.75,0.748252,0.251748,0.695652,0.592593,0.64,SVM
4,4,kernel=rbf_reg=1,0.678322,0.321678,0.633333,0.351852,0.452381,SVM
5,5,kernel=poly_reg=1,0.629371,0.370629,1.0,0.018519,0.036364,SVM
6,6,kernel=poly_reg=2,0.629371,0.370629,1.0,0.018519,0.036364,SVM
7,7,Naive_Bayes,0.706294,0.293706,0.630435,0.537037,0.58,NaiveBayes


In [133]:
dataModelos=pd.read_csv("modelos.csv")

Mostrar los mejores modelos

In [110]:
print(MejorModelo("SVM",dataModelos))
print(MejorModelo("DecisionTree",dataModelos))
print(MejorModelo("NaiveBayes",dataModelos))
#print(MejorModelo("Logistic",dataModelos))

Unnamed: 0                        2
Config        kernel=linear_reg=0.1
Accuracy                   0.748252
Error                      0.251748
Precision                  0.695652
Recall                     0.592593
F1                             0.64
Modelo                          SVM
Name: 2, dtype: object
Unnamed: 0                                                    0
Config        criterio=gini_max_depth=None_max_features=None...
Accuracy                                               0.776224
Error                                                  0.223776
Precision                                              0.696429
Recall                                                 0.722222
F1                                                     0.709091
Modelo                                             DecisionTree
Name: 0, dtype: object
Unnamed: 0              7
Config        Naive_Bayes
Accuracy         0.706294
Error            0.293706
Precision        0.630435
Recall           0.53703

Investigar la técnica: k-fold cross validation agregando en markdown una descripción de esta y como se pudo haber aplicado en este proyecto (No debemos aplicarla al proyecto , solo describir la técnica y cómo se podría aplicar) . Por ejemplo: https://towardsdatascience.com/why-and-how-to-cross-validate-a-model-d6424b45261f . Si esta es aplicada se tomará como puntuación extra

### K-folds validation 

Es una tecnica muy comun, utilizada tambien en el curso de econometria y la idea principal de esta tecnica es sesgar lo menos posible el resultado realizando K particiones en los datos, luego iterar en cada particion obtenida cambiando el set de test cada vez y dejando lo restante como el set de train. Esto para obtener K modelos y sacar el mejor modelo posible con los datos disponibles. El resultado final es el promedio de las iteraciones realizadas. El siguiente diagrama presentara esta idea de forma mas clara

<img src="https://miro.medium.com/max/1046/1*C5FJt_NH1BWJrFSvw_6jtw.png">

Esto pudo ser aplicado en este proyecto al realizar K-folds en 2 partes muy importantes
* Al seleccionar test y train de la data inicial.
* Al seleccionar validation y train a partir de la particion anterior.
Esta ultima seleccion tendria un impacto en la manera en la que llamamos a los modelos, pues si aplicabamos K como una tecnica arriba de cada modelo trabajado entonces hubieramos tenido mas escenarios de prueba y por lo tanto un mejor aprovechamiento de los datos.

### Prueba/Evaluación final:

Dada el conjunto de observaciones X de el conjunto de pruebas y los 4 modelos elegidos:
	
* Predecir sobre estas usando el mejor modelo de cada tipo elegido en el punto anterior.
* Combinar los resultados de las predicciones en una predicción final(moda de resultados individuales)
* Generar una tabla de predicciones como el ejemplo x y crear un dataframe de Pandas con los resultados.
* Calcular métricas de evaluación comparando los Y reales del conjunto de pruebas, contra él Y que se obtuvo de combinar las predicciones individuales del modelo.
* Similar al paso anterior, generar una tabla de métricas de evaluación y crear un dataframe de pandas para mostrar el resultado final.

Si en la evaluación final, no se obtiene la exactitud mínima deseada, volver a la fase de experimentación .


In [201]:
#---Metodo para calcular la moda
def mode(x):
    ## tu codigo aqui (~ 3 lineas de codigo):
    (unicos,veces) = np.unique(x, return_counts=True)
    posmaxrepetido=np.argmax(veces)
    return unicos[posmaxrepetido]
#prueba=np.array([1,4,4,3,5])
#max(set (a), key=lambda x: a.count(x))
#print(mode(prueba))

In [243]:
#---Metodo que devuelve la tabla de predicciones
def Ensamble():
    M_SVM=MejorModelo("SVM",dataModelos)
    M_DecisionTree=MejorModelo("DecisionTree",dataModelos)
    #M_NaiveBayes=MejorModelo("NaiveBayes",dataModelos) Este no tiene parametros para ingresarle
    #M_Logistic=MejorModelo("Logistic",dataModelos)
    
    #----Se procesan uno a uno los modelos
    #SVM
    params=M_SVM["Config"].split("_")
    reg=float(params[1].split("=")[1])
    Y_hat_SVM=EntrenaSVM(X_train, Y_train, X_test,_,reg,params[0].split("=")[1],True)
    
    #DecisionTree
    params=M_DecisionTree["Config"].split("_")
    maxDepth=params[1].split("=")[1]
    maxFeatures=params[2].split("=")[1]
    maxLeafNodes=params[3].split("=")[1]
    if maxDepth=="None":
        maxDepth=None
    if maxFeatures=="None":
        maxFeatures=None
    if maxLeafNodes=="None":
        maxLeafNodes=None
    Y_hat_DT=EntrenaArbol(X_train, Y_train, X_test, _ ,params[0].split("=")[1], maxDepth, maxFeatures, maxLeafNodes)
    
    #NaiveBayes (Este no utiliza parametros)
    Y_hat_NB=EntrenaNB(X_train, Y_train, X_test, _, True)
    
    #Espacio para llamar la mejor estimacion de regresion Logistica
    
    #Calculo de la moda de los 4 modelos
    ensambleModelos=np.empty_like(Y_hat_SVM)
    for i in range(0,len(ensambleModelos)):
        ensambleModelos[i]=mode([Y_hat_SVM[i], Y_hat_DT[i], Y_hat_NB[i]])
    
    #Crear tabla de resultados
    SalOut=pd.DataFrame(data=Y_hat_SVM, columns=["Y_hat_SVM"])
    SalOut["Y_hat_DecisionTree"]=pd.Series(Y_hat_DT)
    SalOut["Y_hat_NaiveBayes"]=pd.Series(Y_hat_NB)
    SalOut["Y_hat_Final"]=pd.Series(ensambleModelos)
    SalOut["Y_Real"]=np.array(Y_test)
    return SalOut
    
    

In [244]:
SS = Ensamble()

The current behaviour of 'Series.argmax' is deprecated, use 'idxmax'
instead.
The behavior of 'argmax' will be corrected to return the positional
maximum in the future. For now, use 'series.values.argmax' or
'np.argmax(np.array(values))' to get the position of the maximum
row.
  return bound(*args, **kwds)


In [267]:
SS

Unnamed: 0,Y_hat_SVM,Y_hat_DecisionTree,Y_hat_NaiveBayes,Y_hat_Final,Y_Real
0,0,0,0,0,0
1,0,0,0,0,0
2,0,0,0,0,0
3,0,0,0,0,1
4,0,1,0,0,0
...,...,...,...,...,...
174,0,1,1,1,0
175,0,0,0,0,0
176,1,1,1,1,1
177,1,1,1,1,1


In [276]:
#---Obtener metricas de la evaluacion en Test
dfMetricasFinales=guardaExperimento(_,_, SS["Y_Real"], SS["Y_hat_Final"], True)
dfMetricasFinales

Unnamed: 0,Accuracy,Error,Precision,Recall,F1
0,0.815642,0.184358,0.774194,0.716418,0.744186


#### Conclusiones
Agregar sección de conclusiones y recomendaciones (incluyendo opiniones,experiencias ,dificultades y lecciones aprendidas).

* Se alcanzo la exactitud deseada mayor a 80%.
* Analizando los diferentes metodos se puede observar que en general la estimacion del modelo arbol de decision es mas certera que los otros modelos.
* Realizar un feature engineering adecuado acorde al problema fue clave para poder obtener los resultados deseados, en este proyecto se tuvo que realizar feature engineering varias veces para descartar variables que no apoyaban a la estimacion.
* Una leccion aprendida tambien fue utilizar mucho el paradigma de POO de tal forma que se pudo reutilizar codigo y generalizar el funcionamiento de algunas funciones. Esto simplifica enormemente la codificacion y tambien la comprension del codigo y el problema.
* Lo mas dificil fue la interpretacion correcta de los resultados obtenidos y el correcto uso de los dataframes al generalizar las funciones.
* El modelo mas dificil de realizar fue el de regresion Logistica pues si bien Tensorflow es mucho mas eficiente para procesar los datos, le agrega cierta complejidad a la codificacion.
