In [6]:
!pip install boto3
!pip install psycopg2-binary

Collecting psycopg2-binary
  Downloading psycopg2_binary-2.8.5-cp37-cp37m-manylinux1_x86_64.whl (2.9 MB)
[K     |████████████████████████████████| 2.9 MB 60 kB/s eta 0:00:012
[?25hInstalling collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.8.5


### Checkpoint 6: Final mile(s)
+ Pipeline de predicción: Su requieres tendría que buscar el pkl en S3 (training) y haber pasado la validación de FE
  + Las predicciones se guardan en S3 y en RDS
  + Metadata de predicción en RDS -> gobernanza de modelos (guardar el uuid del archivo con las predicciones)
  + Al menos 2 validaciones sobre las predicciones
+ Cálculo de bias y fairness con el mejor modelo seleccionado durante el training (a través de python no Web!)
  + Persistencia de bias/fairnes, métricas.
  + Metadata de bias
+ API para exponer tus predicciones, al menos 1 endpoint
+ Dashboard de monitoreo de modelo
+ README completo, cualquiera que se meta a su github puede reproducir su producto de datos siguiendo sus
instrucciones
  + Agrega el requirements.txt de tu pyenv
  + Agrega una foto de tu pipeline completo todo en verde!

Proceso:
+ Corremos bias y fairness del mejor modelo
  + Visualización de Pipeline
  + Persistencia de datos
  + Verificación de persistencia de metadatos
+ Corremos predicciones
  + Visualización de tu pipeline
+ Verificamos metadata de predicciones
+ Validaciones de predicciones marbles
  + Primera vez no pasa (si guardas metadatos, se guardan cuando falla)
  + Segunda vez pasa, guarda metadatos
+ Verificamos el endpoint de tu API
  + Regresamos predicciones
+ Verificamos dashboard de monitoreo

# 0. Configuración Inicial

1. Iniciar EC2 (ssh)
```
ssh -i "dpa_prueba.pem" ubuntu@ec2-54-210-110-241.compute-1.amazonaws.com
```
2. Correr Docker

```
sudo docker run --rm -it \
-v /home/ubuntu/dpa_rita:/home  \
-v $HOME/.aws:/root/.aws:ro  \
-v $HOME/.rita:/root/.rita \
--entrypoint "/bin/bash" \
--net=host \
paolamedo/aws_rita:6.0.1
```

3. Correr luigi
```
$luigid
```

4. Crear puente
```
ssh -i "dpa_prueba.pem" -N -f -L localhost:8082:localhost:8082 ubuntu@ec2-54-210-110-241.compute-1.amazonaws.com
```

5. Ver luigi
```
localhost:8082
```

6. Otra ventana, dentro de docker
```
cd /home
python3 setup.py install
cd src/orquestadores
```


In [15]:
import sys
sys.path.append('./../')
%load_ext autoreload
%autoreload 2

import pandas as pd

from src.utils.s3_utils import create_bucket, get_s3_objects, describe_s3
from src.utils.db_utils import execute_query, show_select,get_select, get_dataframe

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## 0.1 Reinicia

1. Borra modelos
```
aws s3 rm s3://models-dpa --recursive
```

2. Borra metadata

```
delete from metadatos.bias;
delete from metadatos.models;
```

3. Corre modelo
```
PYTHONPATH='.' AWS_PROFILE=dpa luigi --module modelling  RunModelSimple --local-scheduler
```

In [25]:
bucket_name = "models-dpa"
get_s3_objects(bucket_name)

s3.Bucket(name='models-dpa') s3.ObjectSummary(bucket_name='models-dpa', key='30052020_0-1.5_LR_=#iter#-%1$%#pca#-%3&.model.zip') 6599
s3.Bucket(name='models-dpa') s3.ObjectSummary(bucket_name='models-dpa', key='30052020_0-1.5_LR_=#iter#-%200$%#pca#-%8&.model.zip') 6675


In [26]:
query = "select * from metadatos.models order by fecha desc; "
get_dataframe(query)

Unnamed: 0,fecha,objetivo,model_name,s3_name,hyperparams,auroc,aupr,precision,recall,f1,train_time,test_split,train_nrows
0,30052020,0-1.5,LR,30052020_0-1.5_LR_=#iter#-%200$%#pca#-%8&,"{""iter"": 200, ""pca"": 8}",0.67734,0.995104,0.9902439024390244,0.9902439024390244,0.9902439024390244,34.976240158081055,0.2,795
1,30052020,0-1.5,LR,30052020_0-1.5_LR_=#iter#-%1$%#pca#-%3&,"{""iter"": 1, ""pca"": 3}",0.482759,0.981444,0.9902439024390244,0.9902439024390244,0.9902439024390244,21.59895658493042,0.2,795


# 1. Corremos bias y fairness del mejor modelo

## 1.1 Persistencia de datos
Verificar tabla antes

In [22]:
query = "select * from metadatos.bias order by fecha desc; "
get_dataframe(query)

Error while fetching data from PostgreSQL Length mismatch: Expected axis has 0 elements, new values have 10 elements


## 1.2  Visualización de Pipeline

```
PYTHONPATH='.' AWS_PROFILE=dpa luigi --module bias EvaluateBias --local-scheduler
```

Ambos son lo mismo: [FALTA PROBAR ESTE]
```
PYTHONPATH='.' AWS_PROFILE=dpa luigi --module luigi_main  Pipeline --local-scheduler  --type train
```

## 1.3  Verificación de persistencia de metadatos

In [28]:
query = "select * from metadatos.bias order by fecha desc; "
get_dataframe(query)

Unnamed: 0,fecha,s3_name,attribute_value_q1,attribute_value_q2,attribute_value_q3,attribute_value_q4,fpr_disparity_q1,fpr_disparity_q2,fpr_disparity_q3,fpr_disparity_q4
0,30052020,30052020_0-1.5_LR_=#iter#-%200$%#pca#-%8&,1045.00-1205.00,110.00-862.00,1205.00-2527.00,862.00-1045.00,0.961238,1.0,1.044226,0.841795


## 1.4 Verificación del CopyToTable
```
PYTHONPATH='.' AWS_PROFILE=dpa luigi --module bias EvaluateBias --local-scheduler
```

In [29]:
query = "select * from metadatos.bias order by fecha desc; "
get_dataframe(query)

Unnamed: 0,fecha,s3_name,attribute_value_q1,attribute_value_q2,attribute_value_q3,attribute_value_q4,fpr_disparity_q1,fpr_disparity_q2,fpr_disparity_q3,fpr_disparity_q4
0,30052020,30052020_0-1.5_LR_=#iter#-%200$%#pca#-%8&,1045.00-1205.00,110.00-862.00,1205.00-2527.00,862.00-1045.00,0.961238,1.0,1.044226,0.841795


# 2. Corremos predicciones

+ Validaciones de predicciones marbles
  + Primera vez no pasa (si guardas metadatos, se guardan cuando falla)
  + Segunda vez pasa, guarda metadatos
  
+ Visualización de tu pipeline
+ Verificamos metadata de predicciones

## 2.1 Validaciones de predicciones marbles

In [32]:
query = "select * from metadatos.testing_predict_cols order by fecha desc; "
get_dataframe(query)

Error while fetching data from PostgreSQL Length mismatch: Expected axis has 0 elements, new values have 4 elements


In [33]:
query = "select * from metadatos.testing_predict_types order by fecha desc; "
get_dataframe(query)

Error while fetching data from PostgreSQL Length mismatch: Expected axis has 0 elements, new values have 4 elements


### 2.1.1 Primera vez no pasa (si guardas metadatos, se guardan cuando falla)

1. Modificar src/unit_tests_predict_columns.py (donde dice #PARA QUE FALLE)
2. Correr task de predict
```
cd /home
python3 setup.py install
cd src/orquestadores
PYTHONPATH='.' AWS_PROFILE=dpa luigi --module predictions CreatePredictions --local-scheduler
```


In [35]:
query = "select * from metadatos.testing_predict_cols order by fecha desc; "
get_dataframe(query)

Unnamed: 0,fecha,nombre_task,task_status,msg_error
0,30052020,check_columns,failure,number of columns do not match


### 2.1.2 Segunda vez pasa, guarda metadatos

3. Volver a modificar
4. Correr task de predict
```
cd /home
python3 setup.py install
cd src/orquestadores
PYTHONPATH='.' AWS_PROFILE=dpa luigi --module predictions CreatePredictions --local-scheduler
```

In [36]:
query = "select * from metadatos.testing_predict_cols order by fecha desc; "
get_dataframe(query)

Unnamed: 0,fecha,nombre_task,task_status,msg_error
0,30052020,check_columns,failure,number of columns do not match
1,30052020,check_columns,success,none


In [37]:
query = "select * from metadatos.testing_predict_types order by fecha desc; "
get_dataframe(query)

Unnamed: 0,fecha,nombre_task,task_status,msg_error
0,30052020,check_columns_types,success,none


## 2.2 Visualización de tu pipeline
En localhost orquestador

## 2.3 Verificamos metadata de predicciones

In [40]:
query = "select * from metadatos.predictions order by fecha desc; "
get_dataframe(query)

Unnamed: 0,fecha,s3_name_model,s3_name_pred,number_pred,binary_stats
0,30052020,30052020_0-1.5_LR_=#iter#-%200$%#pca#-%8&,30052020_0-1.5_LR_=#iter#-%200$%#pca#-%8&.preds,1000,1.0
1,29052020,18052020_0-1.5_LR_=#iter#-%1$%#pca#-%1&,18052020_0-1.5_LR_=#iter#-%1$%#pca#-%1&.preds,1000,1.0
2,27052020,18052020_0-1.5_LR_=#iter#-%1$%#pca#-%1&,18052020_0-1.5_LR_=#iter#-%1$%#pca#-%1&.preds,1000,1.0


# 3. Verificamos el endpoint de tu API

1. Instala flask
```
 pip install flask_restx
```

2. Crear puente
```
ssh -i "dpa_prueba.pem" -N -f -L localhost:5000:localhost:5000 ubuntu@ec2-54-210-110-241.compute-1.amazonaws.com
```

3. Corre app
```
cd /home
python3 setup.py install
cd src/deploy
python3 app.py
```

4. Ver predicciones 
```
http://127.0.0.1:5000/predicts/1609
```

5. Ver swagger
```
http://127.0.0.1:5000/swagger.json
```



# 4. Verificamos dashboard de monitoreo