#Bienvenidos a la mentoría: 
##"Ciencia de datos aplicada al estudio de la Obesidad y otras enfermedades crónicas en Córdoba."


##### Como primer objetivo proponemos acercarnos a la temática propuesta presentando una breve introducción de la misma y sus posibles determinantes.


##Descripción del problema
La obesidad es una enfermedad crónica multicausal de alta prevalencia en el mundo y Argentina. La misma se encuentra en constante aumento y en Córdoba son más del 50% las personas que presentan exceso de peso, y un 25% del total obesidad. Si bien se piensa que los principales factores que influyen en su desarrollo, son un nivel de actividad física inadecuado, el sedentarismo y una alimentación poco saludable, pueden existir otros determinantes de esta condición que deban ser considerados. Sin embargo, muchas veces es difícil contar con todos estos datos y analizarlos de manera conjunta  o considerando su efecto sinérgico.
Por otra parte, al conocer los aspectos que más influyen en la ocurrencia de esta enfermedad se podría abordar de manera integral y ofrecer a la población información, realizar recomendaciones y utilizar estos resultados para implementar políticas públicas para enfrentar la pandemia de la obesidad.
Así, en esta mentoría poneo a dispoición un dataset que tiene una numerosa variedad de features las cuales permitirán poder seleccionar aquellos que sean los mejores predictores para la enfermedad. También identificar patrones de alimentación y subgrupos de sujetos que compartan ciertas características, y de esta forma descubrir nuevos insights para desarrollar.   
Además, resulta interesante desarrollar metodologías para analizar y describir este problema, las que pueden ser replicadas en otros de las Ciencias de la salud y en el que se utilicen principalmente las herramientas que la Ciencia de Datos provee.
Esperamos que en esta mentoría puedas desarrollar y aplicar todas las herramientas y skills aprendidas durante el cursado de la diplomatura. Te proponemos objetivos específicos para la resolución de cada práctico poniendo en juego tus conocimientos y creatividad, y quién te dice encontras tu lado Abby Sciuto/John Snow. 


##Motivación
❖	¿Cuáles son las principales características de la población de Córdoba en cuanto a sus determinantes bio-socio-económicos?

❖	¿Es la obesidad una enfermedad que depende meramente de la alimentación de los sujetos?

❖	¿Cuáles son los factores alimentarios que promueven el desarrollo de la enfermedad?¿Y cuáles son aquellos que protegen?

❖	¿Se encuentra la obesidad asociada a la enfermedad cardiovascular?¿y al cáncer?

❖	¿Qué variables ayudarían a predecir el estado nutricional de un sujeto de la población de Córdoba?

❖	¿Cuáles son las características más visibles de los grupos según su estado nutricional?¿Existen características comunes que nos permitan predecir el estado nutricional que tendrá una persona?

❖	¿Existe algún patrón alimentario característico por grupos según la presencia o no de obesidad?




# **Práctico N°3**           **Introducción al aprendizaje automático**

## Objetivo y alcance




Para esta materia el objetivo es poder hacer un primer acercamiento a un proceso de aprendizaje automático,Nos enfocaremos en el en el proceso de: selección de un modelo, ajuste de hiperparámetros y evaluación,regulador, métricas, similar a lo que hicieron en el segundo laboratorio de esta materia.
En este laboratorio no se espera que se encuentre el mejor modelo con sus mejores parámetros, sino que se logre la buena práctica de realizar los pasos necesarios en un proceso de aprendizaje automático, desde la división del dataset hasta la evaluación del modelo. Para realizar el práctico vamos a utilizar el dataset generado en la materia anterior. 


### **La necesidad es la siguiente:**

1.   Poder predecir de forma automática la presencia de obesidad (todos los grados) en toda la población.
2.   Poder predecir de forma automática la presencia de obesidad en mujeres (grupo 1) y todos los hombres (grupo 2).
3. Poder determinar cuales son las variables que son consideradas factores de riesgo para presentar obesidad, tanto para toda la población como discriminando por sexos.

### **Para ello se debe:**

*   Crear una variable que responda a la demanda (obesidad = IMC > 29.9)
*  Cargar los datos, separando del dataset la etiqueta a predecir.
* Dividir el dataset en el conjunto de entrenamiento y conjunto de test
*   Analizar y justificar que features se utilizarán para lograr la mejor predicción.
*   Elegir dos modelos de clasificación (uno por cada requerimiento). Los que Uds. se sientan más cómodos, pero también justificando conceptualmente la elección de la función de regularización.
*   Entrenar y evaluar los modelos, fijando la semilla aleatoria para hacer repetible el experimento.
*   En cuanto a los hiper-parámetros:

        1.   Probar primero con los default y elegir alguna/s métrica/s para reportar los resultados. 
        2.   Luego usar grid-search y 5-fold cross-validation para explorar muchas combinaciones posibles de valores, reportando  accuracy promedio y varianza para todas las configuraciones.

*   Para la mejor configuración encontrada, evaluar sobre el conjunto de entrenamiento y sobre el conjunto de evaluación, reportando:
        *   Accuracy
        *   Precision
        *   Recall
        *   F1
        *   Matriz de confusión

### Se evaluarán los siguientes aspectos:
  ***1-*** Que se apliquen los conceptos vistos con los profes en el teórico y en el práctico.

  ***2-*** Que el entregable no sea solo la notebook. El informe debe tener un mensaje claro y debe presentarse en un formato legible para cualquier tipo de stakeholder.

  ***3-*** Capacidad de análisis.

  ***4-*** Criterio para elegir que solución aplicar en cada caso y con qué método implementarla.


  
## Deadline pautado para la entrega: Lunes 16/08/2020




## Estructura del informe
El informe debe estar en un formato que no sea Jupyter Notebook, por ejemplo .html, .pdf, .md. El objetivo es poder redactar y justificar las conclusiones obtenidas a partir de las preguntas disparadoras, utilizando material gráfico y/o interactivo como soporte para complementar las ideas. 
Además, se debe presentar o enviar la notebook en donde se trabajó (jupyter notebook, colab notebook, etc).  

###Se evaluarán los siguientes aspectos:
Que se apliquen los conceptos vistos en el dictado de la materia.

El informe debe tener un mensaje claro y debe presentarse en un formato legible para cualquier tipo de stakeholder.

Que los cálculos estadísticos sean utilizados solo como herramientas para responder a las consignas.

Indicar el criterio aplicado al momento de elegir las variables a analizar.


In [None]:
import numpy             as np
import pandas            as pd
import matplotlib.pyplot as plt
import seaborn 

# Metrics 
from sklearn.metrics         import accuracy_score
from sklearn.metrics         import f1_score
from sklearn.metrics         import precision_score
from sklearn.metrics         import recall_score
from sklearn.metrics         import confusion_matrix

# Models selections
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split

# Classifiers
from sklearn.linear_model    import SGDClassifier
from sklearn.tree            import DecisionTreeClassifier
from sklearn.linear_model    import LogisticRegression
from sklearn.neighbors       import KNeighborsClassifier

  import pandas.util.testing as tm


In [None]:
def print_model_metrics(y_test, y_pred):
    accuracy    = accuracy_score   (y_test, y_pred) 
    precision   = precision_score  (y_test, y_pred)
    recall      = recall_score     (y_test, y_pred)
    f1          = f1_score         (y_test, y_pred)
    confusion   = confusion_matrix (y_test, y_pred)

    metrics_map = { 'Accuracy'         : accuracy   ,
                    'Precision'        : precision  ,
                    'Recall'           : recall     , 
                    'f1_score'         : f1         
                  }
    
    for metric in metrics_map:
        print(metric, round(metrics_map[metric],2))
    
    print(confusion)
    print('\n True Negatives '  + str(confusion[0][0]))
    print('\n False Negatives ' + str(confusion[1][0]))
    print('\n True Positives '  + str(confusion[1][1]))
    print('\n False Positives ' + str(confusion[0][1]))

In [None]:
from   google.colab      import files
encuestas = files.upload()

Saving cured_data_obesity.csv to cured_data_obesity.csv


In [None]:
obedf    = pd.read_csv('cured_data_obesity.csv')

In [None]:
# Eliminamos posibles valores NaN
obedf = obedf[obedf['IMC'].isna() == False]

In [None]:
# Creamos una variable target 
obedf['TARGET'] = obedf['IMC'].apply(lambda x: 0 if x <= 29.9 else 1)

In [None]:
# Seleccionamos los atributos en base a su relacion con la variable IMC.
obedf_mujeres = obedf[obedf.sexo == 0]
obedf_hombres = obedf[obedf.sexo == 1]

for atribute in obedf.columns[5:len(obedf.columns) - 6]:
  ax1 = plt.subplot2grid((1,3), (0,0), rowspan=1, colspan=1)
  ax2 = plt.subplot2grid((1,3), (0,1), rowspan=1, colspan=1)
  ax3 = plt.subplot2grid((1,3), (0,2), rowspan=1, colspan=1)

  seaborn.scatterplot(data=obedf        , x=atribute, y='IMC', ax=ax1)
  seaborn.scatterplot(data=obedf_mujeres, x=atribute, y='IMC', ax=ax2)
  seaborn.scatterplot(data=obedf_hombres, x=atribute, y='IMC', ax=ax3)
  
  plt.show()
  input()

In [None]:
# Nos quedamos con estos atributos para entrenar el modelo.
atributos_todos   = ['ic', 'dbt', 'tipo1', 'tipo2', 'tratadbt', 'mets', 'imagen_percibida', 'cc', 'ten2max', 'ten2min', 'vis', 'frus', 'frud', 'leg', 'past', 'azuc', 'agua', 'cpre']
atributos_mujeres = ['dbt','tipo1','tipo2','tratadbt','mets','imagen_percibida','cc','ten2max','ten2min','vis','frus','frud','leg','agua','cpre'] 
atributos_hombres = ['ec','anteher','dbt','tipo1','tipo2','tratadbt','tumben','mets','imagen_percibida','cc','ten2max','ten2min','vis' ,'fvis','fibfrua','frus','frud','leg','past','azuc','agua','cpre']

In [None]:
# Nos quedamos con un dataset solo con target y estos atributos
obedf         = obedf[atributos_todos+['TARGET']]
obedf_mujeres = obedf_mujeres[atributos_mujeres+['TARGET']]
obedf_hombres = obedf_hombres[atributos_hombres+['TARGET']]

In [None]:
# Queremos ver cuantos datos NaN hay en los atributos elegidos, para ver si al
# eliminarlos no alteramos las relacion entre las clases 0 y 1.

for atributo in atributos_todos:
  print (atributo + '\t' + str(obedf[atributo].isna().sum()))

print (obedf[obedf.mets.isna()].TARGET.value_counts())
print (obedf[obedf.Gcarhue.isna()].TARGET.value_counts())

cc	0
ten2max	0
ten2min	0
mets	362
dbt	1
tipo2	1
tratadbt	1
act	0
imagen_percibida	0
ffs2	1
vis	0
Gcarhue	74
pan	0
past	0
azuc	0
mant	0
agua	0
0    333
1     29
Name: TARGET, dtype: int64
0    64
1    10
Name: TARGET, dtype: int64


In [None]:
# Eliminamos las filas con NaN en alguno de sus atributos.

for atributo in atributos_todos:
  obedf = obedf[obedf[atributo].isna() == False]

for atributo in atributos_mujeres:
  obedf_mujeres = obedf_mujeres[obedf_mujeres[atributo].isna() == False]

for atributo in atributos_hombres:
  obedf_hombres = obedf_hombres[obedf_hombres[atributo].isna() == False]

In [None]:
# Dividir los datos, con stratify para mantener la relacion.
X_todos, y_todos = obedf.iloc[:, :-1], obedf.TARGET
X_todos_train, X_todos_test, y_todos_train, y_todos_test = train_test_split(X_todos, y_todos, test_size=0.2, random_state=0, stratify=y_todos)

X_mujeres, y_mujeres = obedf_mujeres.iloc[:, :-1], obedf_mujeres.TARGET
X_mujeres_train, X_mujeres_test, y_mujeres_train, y_mujeres_test = train_test_split(X_mujeres, y_mujeres, test_size=0.2, random_state=0, stratify=y_mujeres)

X_hombres, y_hombres = obedf_hombres.iloc[:, :-1], obedf_hombres.TARGET
X_hombres_train, X_hombres_test, y_hombres_train, y_hombres_test = train_test_split(X_hombres, y_hombres, test_size=0.2, random_state=0, stratify=y_hombres)

In [None]:
# Primero corremos entrenamos para el grupo de todos
classifier   = SGDClassifier(random_state = 0)
classifier.fit(X_todos_train, y_todos_train)
y_todos_pred_train = classifier.predict(X_todos_train)
y_todos_pred_test  = classifier.predict(X_todos_test)

print('### Metricas de entrenamiento SDGC###')
print_model_metrics(y_todos_train, y_todos_pred_train)
print('\n### Metricas de test SDGC ###')
print_model_metrics(y_todos_test, y_todos_pred_test)

classifier   = DecisionTreeClassifier(random_state = 0)
classifier.fit(X_todos_train, y_todos_train)
y_todos_pred_train = classifier.predict(X_todos_train)
y_todos_pred_test  = classifier.predict(X_todos_test)

print('### Metricas de entrenamiento Tree ###\n')
print_model_metrics(y_todos_train, y_todos_pred_train)
print('\n### Metricas de test ### Tree \n')
print_model_metrics(y_todos_test, y_todos_pred_test)

print(classifier.tree_.max_depth)

### Metricas de entrenamiento SDGC###
Accuracy 0.84
Precision 0.38
Recall 0.12
f1_score 0.18
[[2491   92]
 [ 411   57]]

 True Negatives 2491

 False Negatives 411

 True Positives 57

 False Positives 92

### Metricas de test SDGC ###
Accuracy 0.84
Precision 0.42
Recall 0.16
f1_score 0.23
[[620  26]
 [ 98  19]]

 True Negatives 620

 False Negatives 98

 True Positives 19

 False Positives 26
### Metricas de entrenamiento Tree ###

Accuracy 1.0
Precision 1.0
Recall 1.0
f1_score 1.0
[[2583    0]
 [   0  468]]

 True Negatives 2583

 False Negatives 0

 True Positives 468

 False Positives 0

### Metricas de test ### Tree 

Accuracy 0.87
Precision 0.56
Recall 0.6
f1_score 0.58
[[592  54]
 [ 47  70]]

 True Negatives 592

 False Negatives 47

 True Positives 70

 False Positives 54
16


In [None]:
# Ahora buscamos el mejor modelo para el descenso por gradiente y el conjunto de datos totales.
param_map = { 'loss'          : ['hinge','log','squared_hinge'],
              'penalty'       : ['l2','l1','elasticnet'],
              'learning_rate' : ['optimal','adaptive','invscaling'],
              'eta0'          : [0.1],
              'max_iter'      : [20000,30000],
              'alpha'         : [0.0001, 0.001, 0.01, 0.1]
}

classifier   = SGDClassifier(random_state = 0)

grid_search = GridSearchCV(classifier, param_map, scoring = 'accuracy', cv= None) # By default it uses 5 fold validation)
grid_search.fit(X_todos_train, y_todos_train)

best_model = grid_search.best_estimator_
print(best_model)

best_model.fit(X_todos_train, y_todos_train)
y_todos_pred = best_model.predict(X_todos_test)
print_model_metrics(y_todos_test, y_todos_pred)



SGDClassifier(alpha=0.01, average=False, class_weight=None,
              early_stopping=False, epsilon=0.1, eta0=0.1, fit_intercept=True,
              l1_ratio=0.15, learning_rate='adaptive', loss='hinge',
              max_iter=20000, n_iter_no_change=5, n_jobs=None,
              penalty='elasticnet', power_t=0.5, random_state=0, shuffle=True,
              tol=0.001, validation_fraction=0.1, verbose=0, warm_start=False)
Accuracy 0.91
Precision 0.7
Recall 0.68
f1_score 0.69
[[612  34]
 [ 38  79]]

 True Negatives 612

 False Negatives 38

 True Positives 79

 False Positives 34


In [None]:
param_map = { 'criterion'        : ['gini','entropy'],
              'splitter'         : ['best','random'],
              'max_depth'        : list(range(2, 20, 1)) + [None],
              'min_samples_leaf' : range(1,40, 2),
              'max_features'     : [None, 'auto', 'log2'] 
}

classifier  = DecisionTreeClassifier(random_state = 0)

grid_search = GridSearchCV(classifier, param_map, scoring = 'accuracy', cv= None) # By default it uses 5 fold validation
grid_search.fit(X_todos_train, y_todos_train)

best_model = grid_search.best_estimator_
print(best_model)

best_model.fit(X_todos_train, y_todos_train)
y_todos_pred = best_model.predict(X_todos_test)
print_model_metrics(y_todos_test, y_todos_pred)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=11, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=31, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=0, splitter='random')
Accuracy 0.9
Precision 0.7
Recall 0.59
f1_score 0.64
[[616  30]
 [ 48  69]]

 True Negatives 616

 False Negatives 48

 True Positives 69

 False Positives 30


Prediccion para mujeres

In [None]:
# Ahora hacemos el dataset de mujeres
classifier   = SGDClassifier(random_state = 0)
classifier.fit(X_mujeres_train, y_mujeres_train)
y_mujeres_pred_train = classifier.predict(X_mujeres_train)
y_mujeres_pred_test  = classifier.predict(X_mujeres_test)

print('### Metricas de entrenamiento SDGC###')
print_model_metrics(y_mujeres_train, y_mujeres_pred_train)
print('\n### Metricas de test SDGC ###')  
print_model_metrics(y_mujeres_test, y_mujeres_pred_test)

classifier   = DecisionTreeClassifier(random_state = 0)
classifier.fit(X_mujeres_train, y_mujeres_train)
y_mujeres_pred_train = classifier.predict(X_mujeres_train)
y_mujeres_pred_test  = classifier.predict(X_mujeres_test)

print('### Metricas de entrenamiento Tree ###\n')
print_model_metrics(y_mujeres_train, y_mujeres_pred_train)
print('\n### Metricas de test ### Tree \n')
print_model_metrics(y_mujeres_test, y_mujeres_pred_test)

print(classifier.tree_.max_depth)

### Metricas de entrenamiento SDGC###
Accuracy 0.82
Precision 0.26
Recall 0.12
f1_score 0.17
[[1449   92]
 [ 234   33]]

 True Negatives 1449

 False Negatives 234

 True Positives 33

 False Positives 92

### Metricas de test SDGC ###
Accuracy 0.81
Precision 0.22
Recall 0.1
f1_score 0.14
[[360  25]
 [ 60   7]]

 True Negatives 360

 False Negatives 60

 True Positives 7

 False Positives 25
### Metricas de entrenamiento Tree ###

Accuracy 1.0
Precision 1.0
Recall 1.0
f1_score 1.0
[[1541    0]
 [   0  267]]

 True Negatives 1541

 False Negatives 0

 True Positives 267

 False Positives 0

### Metricas de test ### Tree 

Accuracy 0.89
Precision 0.65
Recall 0.6
f1_score 0.62
[[363  22]
 [ 27  40]]

 True Negatives 363

 False Negatives 27

 True Positives 40

 False Positives 22
16


In [None]:
# Ahora buscamos el mejor modelo para el descenso por gradiente.
param_map = { 'loss'          : ['hinge','log','squared_hinge'],
              'penalty'       : ['l2','l1','elasticnet'],
              'learning_rate' : ['optimal','adaptive','invscaling'],
              'eta0'          : [0.1],
              'max_iter'      : [20000,30000],
              'alpha'         : [0.0001, 0.001, 0.01, 0.1]
}

classifier   = SGDClassifier(random_state = 0)

grid_search = GridSearchCV(classifier, param_map, scoring = 'accuracy', cv= None) # By default it uses 5 fold validation)
grid_search.fit(X_mujeres_train, y_mujeres_train)

best_model = grid_search.best_estimator_
print(best_model)

best_model.fit(X_mujeres_train, y_mujeres_train)
y_mujeres_pred = best_model.predict(X_mujeres_test)
print_model_metrics(y_mujeres_test, y_mujeres_pred)

SGDClassifier(alpha=0.1, average=False, class_weight=None, early_stopping=False,
              epsilon=0.1, eta0=0.1, fit_intercept=True, l1_ratio=0.15,
              learning_rate='adaptive', loss='log', max_iter=20000,
              n_iter_no_change=5, n_jobs=None, penalty='l1', power_t=0.5,
              random_state=0, shuffle=True, tol=0.001, validation_fraction=0.1,
              verbose=0, warm_start=False)
Accuracy 0.91
Precision 0.73
Recall 0.6
f1_score 0.66
[[370  15]
 [ 27  40]]

 True Negatives 370

 False Negatives 27

 True Positives 40

 False Positives 15


In [None]:
param_map = { 'criterion'        : ['gini','entropy'],
              'splitter'         : ['best','random'],
              'max_depth'        : list(range(2, 20, 1)) + [None],
              'min_samples_leaf' : range(1,40, 2),
              'max_features'     : [None, 'auto', 'log2'] 
}

classifier  = DecisionTreeClassifier(random_state = 0)

grid_search = GridSearchCV(classifier, param_map, scoring = 'accuracy', cv= None) # By default it uses 5 fold validation
grid_search.fit(X_mujeres_train, y_mujeres_train)

best_model = grid_search.best_estimator_
print(best_model)

best_model.fit(X_mujeres_train, y_mujeres_train)
y_mujeres_pred = best_model.predict(X_mujeres_test)
print_model_metrics(y_mujeres_test, y_mujeres_pred)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=11, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=13, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=0, splitter='random')
Accuracy 0.9
Precision 0.73
Recall 0.54
f1_score 0.62
[[372  13]
 [ 31  36]]

 True Negatives 372

 False Negatives 31

 True Positives 36

 False Positives 13


Prediccion para hombres

In [None]:
# Finalmente prediccion para hombres
classifier   = SGDClassifier(random_state = 0)
classifier.fit(X_hombres_train, y_hombres_train)
y_hombres_pred_train = classifier.predict(X_hombres_train)
y_hombres_pred_test  = classifier.predict(X_hombres_test)

print('### Metricas de entrenamiento SDGC###')
print_model_metrics(y_hombres_train, y_hombres_pred_train)
print('\n### Metricas de test SDGC ###')  
print_model_metrics(y_hombres_test, y_hombres_pred_test)

classifier   = DecisionTreeClassifier(random_state = 0)
classifier.fit(X_hombres_train, y_hombres_train)
y_hombres_pred_train = classifier.predict(X_hombres_train)
y_hombres_pred_test  = classifier.predict(X_hombres_test)

print('### Metricas de entrenamiento Tree ###\n')
print_model_metrics(y_hombres_train, y_hombres_pred_train)
print('\n### Metricas de test ### Tree \n')
print_model_metrics(y_hombres_test, y_hombres_pred_test)

print(classifier.tree_.max_depth)

### Metricas de entrenamiento SDGC###
Accuracy 0.84
Precision 0.5
Recall 0.26
f1_score 0.34
[[970  50]
 [144  51]]

 True Negatives 970

 False Negatives 144

 True Positives 51

 False Positives 50

### Metricas de test SDGC ###
Accuracy 0.81
Precision 0.34
Recall 0.22
f1_score 0.27
[[234  21]
 [ 38  11]]

 True Negatives 234

 False Negatives 38

 True Positives 11

 False Positives 21
### Metricas de entrenamiento Tree ###

Accuracy 1.0
Precision 1.0
Recall 1.0
f1_score 1.0
[[1020    0]
 [   0  195]]

 True Negatives 1020

 False Negatives 0

 True Positives 195

 False Positives 0

### Metricas de test ### Tree 

Accuracy 0.88
Precision 0.6
Recall 0.67
f1_score 0.63
[[233  22]
 [ 16  33]]

 True Negatives 233

 False Negatives 16

 True Positives 33

 False Positives 22
12


In [None]:
# Ahora buscamos el mejor modelo para el descenso por gradiente.
param_map = { 'loss'          : ['hinge','log','squared_hinge'],
              'penalty'       : ['l2','l1','elasticnet'],
              'learning_rate' : ['optimal','adaptive','invscaling'],
              'eta0'          : [0.1],
              'max_iter'      : [20000,30000],
              'alpha'         : [0.0001, 0.001, 0.01, 0.1]
}

classifier   = SGDClassifier(random_state = 0)

grid_search = GridSearchCV(classifier, param_map, scoring = 'accuracy', cv= None) # By default it uses 5 fold validation)
grid_search.fit(X_hombres_train, y_hombres_train)

best_model = grid_search.best_estimator_
print(best_model)

best_model.fit(X_hombres_train, y_hombres_train)
y_hombres_pred = best_model.predict(X_hombres_test)
print_model_metrics(y_hombres_test, y_hombres_pred)

SGDClassifier(alpha=0.1, average=False, class_weight=None, early_stopping=False,
              epsilon=0.1, eta0=0.1, fit_intercept=True, l1_ratio=0.15,
              learning_rate='adaptive', loss='log', max_iter=20000,
              n_iter_no_change=5, n_jobs=None, penalty='elasticnet',
              power_t=0.5, random_state=0, shuffle=True, tol=0.001,
              validation_fraction=0.1, verbose=0, warm_start=False)
Accuracy 0.88
Precision 0.63
Recall 0.63
f1_score 0.63
[[237  18]
 [ 18  31]]

 True Negatives 237

 False Negatives 18

 True Positives 31

 False Positives 18


In [None]:
param_map = { 'criterion'        : ['gini','entropy'],
              'splitter'         : ['best','random'],
              'max_depth'        : list(range(2, 20, 1)) + [None],
              'min_samples_leaf' : range(1,40, 2),
              'max_features'     : [None, 'auto', 'log2'] 
}

classifier  = DecisionTreeClassifier(random_state = 0)

grid_search = GridSearchCV(classifier, param_map, scoring = 'accuracy', cv= None) # By default it uses 5 fold validation
grid_search.fit(X_hombres_train, y_hombres_train)

best_model = grid_search.best_estimator_
print(best_model)

best_model.fit(X_hombres_train, y_hombres_train)
y_hombres_pred = best_model.predict(X_hombres_test)
print_model_metrics(y_hombres_test, y_hombres_pred)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=4, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=17, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=0, splitter='best')
Accuracy 0.9
Precision 0.67
Recall 0.73
f1_score 0.7
[[237  18]
 [ 13  36]]

 True Negatives 237

 False Negatives 13

 True Positives 36

 False Positives 18
