# ***Revisión de Literatura***

In [37]:
import pandas as pd
from IPython.display import display, HTML
import re

data = {
    "Phishing Classification Traditional Model": [
        "Logistic Regresion (Title: OFMCDM/IRF: A Phishing Website Detection Model based on Optimized Fuzzy Multi-Criteria Decision-Making and Improved Random Forest | Paper DOI: 10.1109/SVCC56964.2023.10165344)",
        "K-Nearest Neighbor (Title: Phishing Website Detection Using Machine Learning Classifiers Optimized by Feature Selection | Paper DOI: 10.18280/ts.370403)",
        "Decision Tree (Title: Advanced Phishing Detection: Leveraging t-SNE Feature Extraction and Machine Learning on a Comprehensive URL Dataset | Paper DOI: 10.26650/acin.1521835)",
        "XG-Boost (Title: A high-accuracy phishing website detection method based on machine learning | Paper DOI: 10.1016/j.jisa.2023.103553)",
        "Random Forest (Title: Phishing Attack Detection: A Solution Based on the Typical Machine Learning Modeling Cycle | Paper DOI: 10.1109/CSCI49370.2019.00041)",
        "SVM - Logistic Regression (Title: A Hybrid Approach for Alluring Ads Phishing Attack Detection Using Machine Learning | Paper DOI: 10.3390/s23198070)",
        "CatBoost (Title: An efficient fraud detection mechanism based on machine learning and blockchain technology | Paper DOI: 0.1109/3ICT60104.2023.10391306)",
        "Random Forest (Title: Web URLs Phishing Detection Model with Random Forest Algorithm | Paper DOI: 10.1109/IBDAP62940.2024.10689685)",
        "Naive Bayes (Title: Phishing Website Classification and Detection Using Machine Learning | Paper DOI: 10.1109/iccci48352.2020.9104161)",
        "K-Nearest Neighbor - SVM (Title: Performance evaluation of machine learning tools for detection of phishing attacks on web pages | Paper DOI: 10.1016/j.sciaf.2022.e01165)"
    ],
    "Phishing Classification Improved Model": [
        "CNN + BiLSTM (Title: Phishing Detection in Blockchain Transaction Networks Using Ensemble Learning | Paper DOI: 10.3390/telecom4020017)",
        "Transformer + CNN + LSTM (Title: An enhanced mechanism for malicious URL detection using stacking ensemble approach | Paper DOI: 10.1007/s11227-024-06908-x)",
        "CNN + BiGRU (Title: An Improved Ensemble Deep Learning Model Based on CNN for Phishing Attack Detection | Paper DOI: 10.1007/978-3-031-08530-7_42)",
        "CNN + RF (Title: Phishing Website Detection Based on Deep Convolutional Neural Networks with Stacking Ensemble | Paper DOI: 10.3390/s21248281)",
        "Magnet + GAE_PDNA + AdaBoost (Title: Graph neural network based phishing account detection in Ethereum | Paper DOI: 10.1093/comjnl/bxae079)",
        "GA + Boosting (Title: Optimized Stacking Ensemble Model to Detect Phishing Websites | Paper DOI: 10.1007/978-981-16-8059-5_23)",
        "BERT + CNN (Title: Advanced BERT and CNN-Based Computational Model for Phishing Detection in Enterprise Systems | Paper DOI: 10.32604/cmes.2024.056473)",
        "ResNeXt + GRU Boosting (Title: Enhancing Phishing Detection: A Novel Hybrid Deep Learning Framework for Cybercrime Forensics | Paper DOI: 10.1109/ACCESS.2024.3351946)",
        "SVM + RF + NN + LSTM (Title: Stacking ensemble classifier for phishing detection: A cyber security model with efficient feature descriptor | Paper DOI: 10.1177/18724981251321395)",
        "CNN + RF (Title: Phishing Website Detection Based on Deep Convolutional Neural Network and Random Forest Ensemble Learning | Paper DOI: 10.3390/s21248281)"
    ],
    "Match": ["No se encuentra en ningún artículo de la primera columna"] * 10
}

df = pd.DataFrame(data)

def clean_doi(doi):
    doi = doi.strip().rstrip(').,')
    if doi.startswith('0.'):
        doi = '10.' + doi[2:]
    return doi

def replace_doi_with_link(text):
    def replacer(match):
        doi_raw = match.group(1)
        doi_clean = clean_doi(doi_raw)
        return f'Paper DOI: <a href=\"https://doi.org/{doi_clean}\" target=\"_blank\">{doi_clean}</a>'
    
    return re.sub(r'Paper DOI:\s*([^\s\)]+)', replacer, text)

def generate_html_table(df):
    html = '''
    <style>
        table {
            width: 100%;
            border-collapse: collapse;
            font-family: Arial, sans-serif;
        }
        th, td {
            border: 1px solid #dddddd;
            text-align: left;
            padding: 8px;
        }
        th {
            background-color: #4CAF50;
            color: white;
        }
        tr:nth-child(even) {
            background-color: #f2f2f2;
        }
        tr:hover {
            background-color: #ddd;
        }
    </style>
    <table>
        <tr>
            <th>Phishing Classification Traditional Model</th>
            <th>Phishing Classification Improved Model</th>
            <th>Match</th>
        </tr>
    '''

    for _, row in df.iterrows():
        trad_model = replace_doi_with_link(row['Phishing Classification Traditional Model'])
        improved_model = replace_doi_with_link(row['Phishing Classification Improved Model'])
        match = row['Match']

        html += f'''
        <tr>
            <td>{trad_model}</td>
            <td>{improved_model}</td>
            <td>{match}</td>
        </tr>
        '''

    html += '</table>'
    return html

display(HTML(generate_html_table(df)))

Phishing Classification Traditional Model,Phishing Classification Improved Model,Match
Logistic Regresion (Title: OFMCDM/IRF: A Phishing Website Detection Model based on Optimized Fuzzy Multi-Criteria Decision-Making and Improved Random Forest | Paper DOI: 10.1109/SVCC56964.2023.10165344),CNN + BiLSTM (Title: Phishing Detection in Blockchain Transaction Networks Using Ensemble Learning | Paper DOI: 10.3390/telecom4020017),No se encuentra en ningún artículo de la primera columna
K-Nearest Neighbor (Title: Phishing Website Detection Using Machine Learning Classifiers Optimized by Feature Selection | Paper DOI: 10.18280/ts.370403),Transformer + CNN + LSTM (Title: An enhanced mechanism for malicious URL detection using stacking ensemble approach | Paper DOI: 10.1007/s11227-024-06908-x),No se encuentra en ningún artículo de la primera columna
Decision Tree (Title: Advanced Phishing Detection: Leveraging t-SNE Feature Extraction and Machine Learning on a Comprehensive URL Dataset | Paper DOI: 10.26650/acin.1521835),CNN + BiGRU (Title: An Improved Ensemble Deep Learning Model Based on CNN for Phishing Attack Detection | Paper DOI: 10.1007/978-3-031-08530-7_42),No se encuentra en ningún artículo de la primera columna
XG-Boost (Title: A high-accuracy phishing website detection method based on machine learning | Paper DOI: 10.1016/j.jisa.2023.103553),CNN + RF (Title: Phishing Website Detection Based on Deep Convolutional Neural Networks with Stacking Ensemble | Paper DOI: 10.3390/s21248281),No se encuentra en ningún artículo de la primera columna
Random Forest (Title: Phishing Attack Detection: A Solution Based on the Typical Machine Learning Modeling Cycle | Paper DOI: 10.1109/CSCI49370.2019.00041),Magnet + GAE_PDNA + AdaBoost (Title: Graph neural network based phishing account detection in Ethereum | Paper DOI: 10.1093/comjnl/bxae079),No se encuentra en ningún artículo de la primera columna
SVM - Logistic Regression (Title: A Hybrid Approach for Alluring Ads Phishing Attack Detection Using Machine Learning | Paper DOI: 10.3390/s23198070),GA + Boosting (Title: Optimized Stacking Ensemble Model to Detect Phishing Websites | Paper DOI: 10.1007/978-981-16-8059-5_23),No se encuentra en ningún artículo de la primera columna
CatBoost (Title: An efficient fraud detection mechanism based on machine learning and blockchain technology | Paper DOI: 10.1109/3ICT60104.2023.10391306),BERT + CNN (Title: Advanced BERT and CNN-Based Computational Model for Phishing Detection in Enterprise Systems | Paper DOI: 10.32604/cmes.2024.056473),No se encuentra en ningún artículo de la primera columna
Random Forest (Title: Web URLs Phishing Detection Model with Random Forest Algorithm | Paper DOI: 10.1109/IBDAP62940.2024.10689685),ResNeXt + GRU Boosting (Title: Enhancing Phishing Detection: A Novel Hybrid Deep Learning Framework for Cybercrime Forensics | Paper DOI: 10.1109/ACCESS.2024.3351946),No se encuentra en ningún artículo de la primera columna
Naive Bayes (Title: Phishing Website Classification and Detection Using Machine Learning | Paper DOI: 10.1109/iccci48352.2020.9104161),SVM + RF + NN + LSTM (Title: Stacking ensemble classifier for phishing detection: A cyber security model with efficient feature descriptor | Paper DOI: 10.1177/18724981251321395),No se encuentra en ningún artículo de la primera columna
K-Nearest Neighbor - SVM (Title: Performance evaluation of machine learning tools for detection of phishing attacks on web pages | Paper DOI: 10.1016/j.sciaf.2022.e01165),CNN + RF (Title: Phishing Website Detection Based on Deep Convolutional Neural Network and Random Forest Ensemble Learning | Paper DOI: 10.3390/s21248281),No se encuentra en ningún artículo de la primera columna


## ***Justificación para el uso de modelos Stacking en la detección de URLs de phishing***

La detección de URLs de phishing es un problema altamente complejo, caracterizado (en algunos casos) por datos desequilibrados, alta dimensionalidad, y una diversidad de características tanto númericas como categóricas. Bajo este contexto, la técnica de **stacking** se presenta como una alternativa robusta y flexible que permite combinar las fortalezas de diferentes modelos base, maximizando la capacidad predictiva y minimizando errores.

### ***Opción 1: Stacking con modelos base XGBoost y MLP, metamodelo Random Forest (RF)***

- ***XGBoost*** es un algoritmo de boosting basado en árboles que destaca por su capacidad para capturar relaciones no lineales, manejar valores atípicos y funcionar bien en datasets estructurados.
- ***MLP (Multilayer Perceptron)***, por otro lado, es una red neuronal profunda capaz de capturar patrones complejos y no lineales, especialmente útiles cuando se combinan características numéricas y categóricas.
- La elección del ***Random Forest*** como metamodelo es estratégica, dado que RF es robusto frente al sobreajuste y tiene la capacidad de integrar predicciones heterogéneas provenientes de modelos complejos como ***XGBoost*** y ***MLP***.
- La combinación de modelos base con naturaleza distinta (árboles y redes neuronales) permite capturar una mayor diversidad de patrones en el conjunto de datos.
- ***Ventaja clave:*** la estructura de stacking con RF como meta-aprendiz permite un mejor control del sesgo y la varianza, consolidando predicciones más estables.

### ***Opción 2: Stacking con modelos base XGBoost y SVM, metamodelo MLP***

- ***XGBoost*** aporta robustez y alto rendimiento sobre datos tabulares con gran cantidad de features.
- ***SVM (Support Vector Machine)*** es particularmente útil para encontrar márgenes óptimos en espacios multidimensionales, ideal para manejar casos límite y patrones difíciles de separar.
- La combinación de un algoritmo basado en árboles (***XGBoost***) con un modelo lineal/no lineal robusto (**SVM**) permite cubrir diferentes aspectos del espacio de decisión.
- El uso de un ***MLP*** como metamodelo es justificado debido a su capacidad de actuar como un integrador no lineal, aprendiendo relaciones complejas entre las salidas de los modelos base.
- ***Ventaja clave:*** el ***MLP*** como metamodelo puede capturar dependencias de segundo nivel entre predicciones base, generando una capa adicional de aprendizaje no trivial que mejora la precisión.

El uso de stacking en ambos escenarios permite explotar la diversidad algorítmica, reduciendo errores sistemáticos y aumentando la capacidad general de generalización del modelo. En problemas críticos como la detección de phishing, donde las consecuencias de un falso negativo pueden ser graves, estas estructuras permiten alcanzar modelos robustos y con métricas de rendimiento superiores.

