![image info](https://raw.githubusercontent.com/albahnsen/MIAD_ML_and_NLP/main/images/banner_1.png)

# Disponibilización de modelos

En este notebook aprenderá a guardar un modelo y a disponibilizarlo como una API con la librería Flask. Una API (interfaz de programación de aplicaciones) es un conjunto de definiciones y protocolos que permiten que servicios, en este caso modelos, retornen resultados y respuestas sin necesidad de saber cómo están implementados.

## Instrucciones Generales:

Este notebook esta compuesto por dos secciones. En la primera secciónn, usted beberá entrenar y guardar (exportar) un modelo de random forest para predecir si una URL es phishing (fraudulenta) o no. En la segunda parte, usará el modelo entrenado y lo disponibilizara usando la libreria *Flask*. En el siguente paper puede conocer más detalles de la base de datos que usaremos y del problema: *A. Correa Bahnsen, E. C. Bohorquez, S. Villegas, J. Vargas, and F. A. Gonzalez, “Classifying phishing urls using recurrent neural networks,” in Electronic Crime Research (eCrime), 2017 APWG Symposium on. IEEE, 2017, pp. 1–8*. https://albahnsen.files.wordpress.com/2018/05/classifying-phishing-urls-using-recurrent-neural-networks_cameraready.pdf
  
Para realizar la actividad, solo siga las indicaciones asociadas a cada celda del notebook. 


## Importar base de datos y librerías

In [5]:
!pip install -r requirements.txt

Collecting absl-py==2.2.0 (from -r requirements.txt (line 1))
  Using cached absl_py-2.2.0-py3-none-any.whl.metadata (2.4 kB)
Collecting aniso8601==10.0.0 (from -r requirements.txt (line 2))
  Using cached aniso8601-10.0.0-py2.py3-none-any.whl.metadata (23 kB)
Collecting antlr4-python3-runtime==4.9.3 (from -r requirements.txt (line 3))
  Using cached antlr4-python3-runtime-4.9.3.tar.gz (117 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting astunparse==1.6.3 (from -r requirements.txt (line 4))
  Using cached astunparse-1.6.3-py2.py3-none-any.whl.metadata (4.4 kB)
Collecting attrs==25.3.0 (from -r requirements.txt (line 5))
  Using cached attrs-25.3.0-py3-none-any.whl.metadata (10 kB)
Collecting blinker==1.9.0 (from -r requirements.txt (line 6))
  Using cached blinker-1.9.0-py3-none-any.whl.metadata (1.6 kB)
Collecting bokeh==3.4.3 (from -r requirements.txt (line 7))
  Using cached bokeh-3.4.3-py3-none-any.whl.metadata (1

ERROR: Ignored the following versions that require a different python version: 1.21.2 Requires-Python >=3.7,<3.11; 1.21.3 Requires-Python >=3.7,<3.11; 1.21.4 Requires-Python >=3.7,<3.11; 1.21.5 Requires-Python >=3.7,<3.11; 1.21.6 Requires-Python >=3.7,<3.11
ERROR: Could not find a version that satisfies the requirement tensorflow-io-gcs-filesystem==0.31.0 (from versions: none)
ERROR: No matching distribution found for tensorflow-io-gcs-filesystem==0.31.0


In [6]:
import warnings
warnings.filterwarnings('ignore')

In [7]:
# Importación librerías
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
import joblib

import os
os.chdir('..')

In [8]:
# Carga de datos de archivos .csv
data = pd.read_csv('https://raw.githubusercontent.com/albahnsen/MIAD_ML_and_NLP/main/datasets/phishing.csv')
data.head()

Unnamed: 0,url,phishing
0,http://www.subalipack.com/contact/images/sampl...,1
1,http://fasc.maximecapellot-gypsyjazz-ensemble....,1
2,http://theotheragency.com/confirmer/confirmer-...,1
3,http://aaalandscaping.com/components/com_smart...,1
4,http://paypal.com.confirm-key-21107316126168.s...,1


## Codificar variables categóricas
Relizar preprocesamiento de texto (URLs) para crear variables predictoras:

In [10]:
# Creación de columnas binarias que indican si la URL contiene la palabra clave (keywords)
keywords = ['https', 'login', '.php', '.html', '@', 'sign']
for keyword in keywords:
    data['keyword_' + keyword] = data.url.str.contains(keyword).astype(int)

# Definición de la variable largo de la URL
data['lenght'] = data.url.str.len() - 2

# Definición de la variable largo del dominio de la URL
domain = data.url.str.split('/', expand=True).iloc[:, 2]
data['lenght_domain'] = domain.str.len()

# Definición de la variable binaria que indica si es IP
data['isIP'] = (domain.str.replace('.', '') * 1).str.isnumeric().astype(int)

# Definicón de la variable cuenta de 'com' en la URL
data['count_com'] = data.url.str.count('com')

data.head()

Unnamed: 0,url,phishing,keyword_https,keyword_login,keyword_.php,keyword_.html,keyword_@,keyword_sign,lenght,lenght_domain,isIP,count_com
0,http://www.subalipack.com/contact/images/sampl...,1,0,0,0,0,0,0,47,18,0,1
1,http://fasc.maximecapellot-gypsyjazz-ensemble....,1,0,0,0,0,0,0,73,41,0,0
2,http://theotheragency.com/confirmer/confirmer-...,1,0,0,0,0,0,0,92,18,0,1
3,http://aaalandscaping.com/components/com_smart...,1,0,0,0,0,0,0,172,18,0,3
4,http://paypal.com.confirm-key-21107316126168.s...,1,0,0,0,0,0,0,90,50,0,1


In [11]:
# Separación de variables predictoras (X) y variable de interes (y)
X = data.drop(['url', 'phishing'], axis=1)
y = data.phishing

## Entrenar y guardar el modelo

In [13]:
# Definición de modelo de clasificación Random Forest
clf = RandomForestClassifier(n_jobs=-1, n_estimators=100, max_depth=3)
cross_val_score(clf, X, y, cv=10)

array([0.75875, 0.75325, 0.74525, 0.755  , 0.7485 , 0.761  , 0.75225,
       0.75   , 0.75675, 0.74725])

In [14]:
# Entrenamiento del modelo de clasificación Random Forest
clf.fit(X, y)

In [15]:
# Exportar modelo a archivo binario .pkl
joblib.dump(clf, 'model_deployment/phishing_clf.pkl', compress=3)

['model_deployment/phishing_clf.pkl']

In [16]:
# Importar modelo y predicción
from model_deployment.m09_model_deployment import predict_proba

# Predicción de probabilidad de que un link sea phishing
predict_proba('http://www.vipturismolondres.com/com.br/?atendimento=Cliente&/LgSgkszm64/B8aNzHa8Aj.php')

0.7666433638032464

## Disponibilizar modelo con Flask

Para esta sección del notebook instale las siguientes librerías *!pip install flask* y *!pip install flask_restplus*.

In [29]:
pip install flask-restx


Collecting flask-restxNote: you may need to restart the kernel to use updated packages.

  Using cached flask_restx-1.3.0-py2.py3-none-any.whl.metadata (9.3 kB)
Collecting aniso8601>=0.82 (from flask-restx)
  Using cached aniso8601-10.0.0-py2.py3-none-any.whl.metadata (23 kB)
Collecting importlib-resources (from flask-restx)
  Using cached importlib_resources-6.5.2-py3-none-any.whl.metadata (3.9 kB)
Downloading flask_restx-1.3.0-py2.py3-none-any.whl (2.8 MB)
   ---------------------------------------- 0.0/2.8 MB ? eta -:--:--
   --------------------------------- ------ 2.4/2.8 MB 11.2 MB/s eta 0:00:01
   ---------------------------------------- 2.8/2.8 MB 12.5 MB/s eta 0:00:00
Downloading aniso8601-10.0.0-py2.py3-none-any.whl (52 kB)
Downloading importlib_resources-6.5.2-py3-none-any.whl (37 kB)
Installing collected packages: aniso8601, importlib-resources, flask-restx
Successfully installed aniso8601-10.0.0 flask-restx-1.3.0 importlib-resources-6.5.2


In [31]:
# Importación librerías
from flask import Flask
from flask_restx import Api, Resource, fields

In [33]:
app = Flask(__name__)

# Definición API Flask
api = Api(
    app, 
    version='1.0', 
    title='Phishing Prediction API',
    description='Phishing Prediction API')

ns = api.namespace('predict', 
     description='Phishing Classifier')

# Definición argumentos o parámetros de la API
parser = ns.parser()
parser.add_argument(
    'URL', 
    type=str, 
    required=True, 
    help='URL to be analyzed', 
    location='args')

resource_fields = api.model('Resource', {
    'result': fields.String,
})

In [35]:
# Definición de la clase para disponibilización
@ns.route('/')
class PhishingApi(Resource):

    @ns.doc(parser=parser)
    @ns.marshal_with(resource_fields)
    def get(self):
        args = parser.parse_args()
        
        return {
         "result": predict_proba(args['URL'])
        }, 200

In [None]:
# Ejecución de la aplicación que disponibiliza el modelo de manera local en el puerto 5000
app.run(debug=True, use_reloader=False, host='0.0.0.0', port=5000)

 * Serving Flask app '__main__'
 * Debug mode: on


 * Running on all addresses (0.0.0.0)
 * Running on http://127.0.0.1:5000
 * Running on http://192.168.1.4:5000
Press CTRL+C to quit
127.0.0.1 - - [12/Apr/2025 12:34:53] "GET / HTTP/1.1" 200 -
127.0.0.1 - - [12/Apr/2025 12:34:53] "GET /swaggerui/droid-sans.css HTTP/1.1" 200 -
127.0.0.1 - - [12/Apr/2025 12:34:54] "GET /swaggerui/swagger-ui.css HTTP/1.1" 200 -
127.0.0.1 - - [12/Apr/2025 12:34:54] "GET /swaggerui/swagger-ui-bundle.js HTTP/1.1" 200 -
127.0.0.1 - - [12/Apr/2025 12:34:54] "GET /swaggerui/swagger-ui-standalone-preset.js HTTP/1.1" 200 -
127.0.0.1 - - [12/Apr/2025 12:34:54] "GET /swagger.json HTTP/1.1" 200 -
127.0.0.1 - - [12/Apr/2025 12:34:54] "GET /swaggerui/favicon-32x32.png HTTP/1.1" 200 -
127.0.0.1 - - [12/Apr/2025 12:36:02] "GET /predict/?URL=https://www.montevideo.com.uy/ HTTP/1.1" 200 -
127.0.0.1 - - [12/Apr/2025 12:36:53] "GET /predict/?URL=http://consultoriojuridico.co/pp/www.paypal.com/ HTTP/1.1" 200 -
127.0.0.1 - - [12/Apr/2025 12:36:53] "GET /favicon.ico HTTP/1.1" 

El modelo debe haber quedado disponibilizado en el puerto 5000. Para predecir la probabilidad de que una URL sea fraudulenta (phishing) copie en la barra de busqueda de su navegador la siguiente dirección (http://localhost:5000/predict/?URL=) y agregregue al final de esta la URL que desee precir. Por ejemplo, al copiar la URL http://localhost:5000/predict/?URL=http://consultoriojuridico.co/pp/www.paypal.com/, la API retornará la probabilidad de que la URL http://consultoriojuridico.co/pp/www.paypal.com/ sea phishing.