Algunas caracteristicas:

* Gran variedad de algoritmos de Machine Learning.
* H2O funciona de forma local o a través de un cluster de máquinas (algoritmos paralelizados).
* Integración con Spark vía [Sparkling Water](https://github.com/h2oai/sparkling-water).
* [H2O4GPU](https://github.com/h2oai/h2o4gpu) con algoritmos que se ejecutan en GPU
* H2O Flow como interfaz gráfica para entrenar modelos sin escribir código.

### Levantamos un servidor de [H2O](https://www.h2o.ai/products/h2o/)

In [1]:
import h2o
h2o.init()
h2o.remove_all()

Checking whether there is an H2O instance running at http://localhost:54321 . connected.


0,1
H2O cluster uptime:,1 day 0 hours 49 mins
H2O cluster timezone:,America/Santiago
H2O data parsing timezone:,UTC
H2O cluster version:,3.26.0.3
H2O cluster version age:,11 days
H2O cluster name:,H2O_from_python_maravenag_8ac30g
H2O cluster total nodes:,1
H2O cluster free memory:,3.240 Gb
H2O cluster total cores:,8
H2O cluster allowed cores:,8


### Cargamos los datos para nuestro modelo

H2O permite cargar datos desde diferentes fuentes:

    1) Local File System
    2) Remote File
    3) S3
    4) HDFS
    5) JDBC
    6) Hive
    
### Modelo de gastos médicos (datos de Kaggle)

Dadas las características de una persona, trataremos de predecir cuánto van a gastar en salud (`charges`).


In [2]:
#cargamos los datos en un dataframe de h2o
data = h2o.upload_file("../data/insurance.csv")
data.head(5)

Parse progress: |█████████████████████████████████████████████████████████| 100%


age,sex,bmi,children,smoker,region,charges
19,female,27.9,0,yes,southwest,16884.9
18,male,33.77,1,no,southeast,1725.55
28,male,33.0,3,no,southeast,4449.46
33,male,22.705,0,no,northwest,21984.5
32,male,28.88,0,no,northwest,3866.86




In [3]:
#elegimos cual es el target y las variables de entrenamiento
target = "charges"
train_cols = [column for column in data.col_names if column != target]

In [4]:
#dividimos el dataset en training y validación
train, valid = data.split_frame(ratios=[0.7],
                                seed=1,
                                destination_frames=['train', 'valid'])

### Entrenamos un [AutoML](http://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl.html) de H2O

#### Pasos para entrenar un AutoML (*automatic machine learning*) de H2O
1) Especificar el dataset de training y de validation <br>
2) Indicar las columnas de entrenamiento y el target. <br>
3) Correr el AutoML durante un máximo de tiempo y/o modelos <br>
4) Revisar el leaderboard y métricas de los modelos. <br>
5) Guardar el modelo -> binario o MOJO <br>


In [5]:
from h2o.automl import H2OAutoML

In [6]:
automl = H2OAutoML(nfolds=3, seed=1, max_models=20)

In [7]:
automl.train(x=train_cols, y=target, training_frame=train, validation_frame=valid)

AutoML progress: |████████████████████████████████████████████████████████| 100%


In [8]:
automl.leaderboard

model_id,mean_residual_deviance,rmse,mse,mae,rmsle
XGBoost_grid_1_AutoML_20190904_182654_model_3,20548000.0,4532.99,20548000.0,2395.39,0.431831
XGBoost_2_AutoML_20190904_182654,21362000.0,4621.9,21362000.0,2484.75,0.474911
XGBoost_3_AutoML_20190904_182654,21421800.0,4628.36,21421800.0,2474.71,0.441061
XGBoost_grid_1_AutoML_20190904_182654_model_4,21869600.0,4676.5,21869600.0,2482.65,0.441022
XGBoost_grid_1_AutoML_20190904_182654_model_1,22107400.0,4701.85,22107400.0,2669.4,0.453778
XGBoost_1_AutoML_20190904_182654,22107800.0,4701.89,22107800.0,2557.37,0.473288
GBM_grid_1_AutoML_20190904_182654_model_1,22771700.0,4771.97,22771700.0,2689.43,0.489945
DRF_1_AutoML_20190904_182654,23075700.0,4803.72,23075700.0,2750.15,0.466945
GBM_3_AutoML_20190904_182654,23170500.0,4813.58,23170500.0,2808.5,0.505628
XRT_1_AutoML_20190904_182654,23174000.0,4813.94,23174000.0,2766.96,0.465143




In [40]:
model = automl.leader

### Machine Learning en Producción

<img src="model.jpg" alt="Markdown Monster icon" style="float: left; margin-right: 10px;" />

### Exportamos el modelo como [MOJO](http://docs.h2o.ai/h2o/latest-stable/h2o-docs/productionizing.html) (Model Object, Optimized) 

>H2O-generated MOJO and POJO models are intended to be easily embeddable in any Java environment. The only compilation and runtime dependency for a generated model is the h2o-genmodel.jar file produced as the build output of these packages

* MOJOs funcionan con AutoML, Deep Learning, DRF, GBM, GLM, GLRM, K-Means, Stacked Ensembles, SVM, Word2vec, y XGBoost.
* MOJOs pueden ser integrados en cualquier aplicación/ambiente que utilice Java. (Kafka, Storm, AWS Lambda, etc)
* Soporte automático para variables [categoricas](http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/algo-params/categorical_encoding.html).
* Buenos tiempos de respuesta al momento de predecir.
* Nuevas versiones de H2O soportan [Target Encoding](http://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-munging/target-encoding.html).

In [42]:
model.download_mojo(path="../models/", get_genmodel_jar=True)

'/Users/maravenag/Desktop/presentacion_meetup/models/XGBoost_grid_1_AutoML_20190828_132329_model_3.zip'

#### Incorporamos nuestro modelo en una App de Java


<pre>
package demo;
<b>import hex.genmodel.easy.EasyPredictModelWrapper;</b>
<b>import hex.genmodel.easy.RowData;</b>
<b>import hex.genmodel.MojoModel;</b>
<b>import hex.genmodel.easy.prediction.RegressionModelPrediction;</b>
import java.io.IOException;
import io.javalin.Javalin;

public class App {
  public static void main(String[] args) throws IOException {
    String modelPath = args[0];
    <b>EasyPredictModelWrapper model = new EasyPredictModelWrapper(MojoModel.load(modelPath));</b>
    Javalin app = Javalin.start(8080);
    
    app.get("/predict", ctx -> {
      <b>RowData params = new RowData();</b>
      ctx.queryParamMap().forEach((param, value) -> {
        <b>params.put(param, value);</b>
      });
      <b>RegressionModelPrediction prediction = model.predictRegression(params);</b>
      ctx.result("prediction: "+ <b>prediction.value</b>);
    });
    //http://localhost:8080/predict?age=19&sex=male&bmi=27.9&children=0&region=southwest
  }
}
</pre>

### Desafios de modelos de machine learning en producción

* Cambios en el comportamiento de los datos en el tiempo *(data drift, concept drift)*
<img src="drift.jpg" alt="Markdown Monster icon" style="float: left; margin-right: 10px;"/>

* Monitoreo de la aplicación que sirve el modelo, como también de las predicciones.

<img src="viz_full.png" alt="Markdown Monster icon" style="float: left; margin-right: 10px; width: 50%; height: auto;"/>

* Transparencia del modelo a diferentes stackeholders -> utilizar técnicas de interpretabilidad

<img src="shap.png" alt="Markdown Monster icon" style="float: left; margin-right: 10px; width: 70%; height: auto;"/>

* La data necesaria para el modelo no está disponible al momento de producción.
* Puede haber falta de colaboración entre equipos de **data science** y **operaciones/TI**.

* Mantener algunos modelos puede ser costoso por el procesamiento necesario.

<img src="aws_pricing.png" alt="Markdown Monster icon" style="float: left; margin-right: 10px; width: 70%; height: auto;"/>

### Algunas [recetas](http://docs.h2o.ai/h2o/latest-stable/h2o-docs/productionizing.html#example-design-patterns) de H2O para modelos de producción