<a href="https://colab.research.google.com/github/sren97/Modelos2_PhiUSIIL/blob/main/Proyecto_Modelos_2_PhiUSIIL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Descarga de la base de datos

In [None]:
pip install ucimlrepo

Collecting ucimlrepo
  Downloading ucimlrepo-0.0.7-py3-none-any.whl.metadata (5.5 kB)
Downloading ucimlrepo-0.0.7-py3-none-any.whl (8.0 kB)
Installing collected packages: ucimlrepo
Successfully installed ucimlrepo-0.0.7


In [None]:
from ucimlrepo import fetch_ucirepo

# fetch dataset
phiusiil_phishing_url_website = fetch_ucirepo(id=967)

# data (as pandas dataframes)
data = phiusiil_phishing_url_website.data.original
features = phiusiil_phishing_url_website.data.features
target = phiusiil_phishing_url_website.data.targets



# 1.   Descripción del problema




## A. Contexto y utilidad del problema

La detección de sitios *phishing* es un problema crítico, y que cada vez ha ganado más relevancia dentro del ámbito de la seguridad informática, ya que millones de usuarios son víctimas cada año de páginas falsas que suplantan sitios legítimos, resultando en pérdidas financieras, el robo de información sensible y la pérdida de la confianza en las instituaciones que manejan estos datos.

El conjunto PhiUSIIL Phishing URL Dataset fue creado con el propósito de ofrecer una base estandarizada para entrenar y evaluar modelos de detección automática de phishing. Este dataset integra características léxicas, de contenido y de red, lo que permite a los algoritmos aprender patrones que distinguen una URL real de una fraudulenta.  

Automatizar este proceso mediante *Machine Learning* permite reducir el tiempo de respuesta ante amenazas, permitiendo la detección proactiva de ataques desconocidos (*zero-day attacks*) y complementar las soluciones basadas en listas negras, que suelen quedar obsoletas con rapidez frente a la evolución constantey las sofistificación de las tácticas de los atacantes.

Debido a su estructura limpia y su número elevado de registros, el dataset PhiUSIIL se ha convertido en una referencia para estudios de detección de phishing con modelos de *Machine Learning* y *Deep Learning*.


## B. Caracterización del conjunto de datos

In [None]:
# metadata
print(phiusiil_phishing_url_website.metadata)

# variable information
data.info()



{'uci_id': 967, 'name': 'PhiUSIIL Phishing URL (Website)', 'repository_url': 'https://archive.ics.uci.edu/dataset/967/phiusiil+phishing+url+dataset', 'data_url': 'https://archive.ics.uci.edu/static/public/967/data.csv', 'abstract': 'PhiUSIIL Phishing URL Dataset is a substantial dataset comprising 134,850 legitimate and 100,945 phishing URLs. Most of the URLs we analyzed, while constructing the dataset, are the latest URLs. Features are extracted from the source code of the webpage and URL. Features such as CharContinuationRate, URLTitleMatchScore, URLCharProb, and TLDLegitimateProb are derived from existing features.', 'area': 'Computer Science', 'tasks': ['Classification'], 'characteristics': ['Tabular'], 'num_instances': 235795, 'num_features': 54, 'feature_types': ['Real', 'Categorical', 'Integer'], 'demographics': [], 'target_col': ['label'], 'index_col': None, 'has_missing_values': 'no', 'missing_values_symbol': None, 'year_of_dataset_creation': 2024, 'last_updated': 'Sun May 12 

In [19]:
data.describe()

Unnamed: 0,URLLength,DomainLength,IsDomainIP,URLSimilarityIndex,CharContinuationRate,TLDLegitimateProb,URLCharProb,TLDLength,NoOfSubDomain,HasObfuscation,...,Pay,Crypto,HasCopyrightInfo,NoOfImage,NoOfCSS,NoOfJS,NoOfSelfRef,NoOfEmptyRef,NoOfExternalRef,label
count,235795.0,235795.0,235795.0,235795.0,235795.0,235795.0,235795.0,235795.0,235795.0,235795.0,...,235795.0,235795.0,235795.0,235795.0,235795.0,235795.0,235795.0,235795.0,235795.0,235795.0
mean,34.573095,21.470396,0.002706,78.430778,0.845508,0.260423,0.055747,2.764456,1.164758,0.002057,...,0.237007,0.023474,0.486775,26.075689,6.333111,10.522305,65.071113,2.377629,49.262516,0.571895
std,41.314153,9.150793,0.051946,28.976055,0.216632,0.251628,0.010587,0.599739,0.600969,0.045306,...,0.425247,0.151403,0.499826,79.411815,74.866296,22.312192,176.687539,17.641097,161.02743,0.494805
min,13.0,4.0,0.0,0.155574,0.0,0.0,0.001083,2.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,23.0,16.0,0.0,57.024793,0.68,0.005977,0.050747,2.0,1.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
50%,27.0,20.0,0.0,100.0,1.0,0.079963,0.05797,3.0,1.0,0.0,...,0.0,0.0,0.0,8.0,2.0,6.0,12.0,0.0,10.0,1.0
75%,34.0,24.0,0.0,100.0,1.0,0.522907,0.062875,3.0,1.0,0.0,...,0.0,0.0,1.0,29.0,8.0,15.0,88.0,1.0,57.0,1.0
max,6097.0,110.0,1.0,100.0,1.0,0.522907,0.090824,13.0,10.0,1.0,...,1.0,1.0,1.0,8956.0,35820.0,6957.0,27397.0,4887.0,27516.0,1.0


### Inspección de variables categóricas

In [24]:
data.columns

Index(['FILENAME', 'URL', 'URLLength', 'Domain', 'DomainLength', 'IsDomainIP',
       'TLD', 'URLSimilarityIndex', 'CharContinuationRate',
       'TLDLegitimateProb', 'URLCharProb', 'TLDLength', 'NoOfSubDomain',
       'HasObfuscation', 'NoOfObfuscatedChar', 'ObfuscationRatio',
       'NoOfLettersInURL', 'LetterRatioInURL', 'NoOfDegitsInURL',
       'DegitRatioInURL', 'NoOfEqualsInURL', 'NoOfQMarkInURL',
       'NoOfAmpersandInURL', 'NoOfOtherSpecialCharsInURL',
       'SpacialCharRatioInURL', 'IsHTTPS', 'LineOfCode', 'LargestLineLength',
       'HasTitle', 'Title', 'DomainTitleMatchScore', 'URLTitleMatchScore',
       'HasFavicon', 'Robots', 'IsResponsive', 'NoOfURLRedirect',
       'NoOfSelfRedirect', 'HasDescription', 'NoOfPopup', 'NoOfiFrame',
       'HasExternalFormSubmit', 'HasSocialNet', 'HasSubmitButton',
       'HasHiddenFields', 'HasPasswordField', 'Bank', 'Pay', 'Crypto',
       'HasCopyrightInfo', 'NoOfImage', 'NoOfCSS', 'NoOfJS', 'NoOfSelfRef',
       'NoOfEmptyRef', 'NoOf

In [32]:
data[['FILENAME', 'URL', 'TLD', 'Title', 'label']].head(25)


Unnamed: 0,FILENAME,URL,TLD,Title,label
0,521848.txt,https://www.southbankmosaics.com,com,à¸‚à¹ˆà¸²à¸§à¸ªà¸” à¸‚à¹ˆà¸²à¸§à¸§à¸±à¸™à¸™à¸µ...,1
1,31372.txt,https://www.uni-mainz.de,de,johannes gutenberg-universitÃ¤t mainz,1
2,597387.txt,https://www.voicefmradio.co.uk,uk,voice fm southampton,1
3,554095.txt,https://www.sfnmjournal.com,com,home page: seminars in fetal and neonatal medi...,1
4,151578.txt,https://www.rewildingargentina.org,org,fundaciÃ³n rewilding argentina,1
5,23107.txt,https://www.globalreporting.org,org,gri - home,1
6,23034.txt,https://www.saffronart.com,com,0,1
7,696732.txt,https://www.nerdscandy.com,com,nerds candy,1
8,739255.txt,https://www.hyderabadonline.in,in,hyderabadonline - business listing in hyderaba...,1
9,14486.txt,https://www.aap.org,org,home,1


### Distribución de clases

In [None]:
target.value_counts(normalize=True)

Unnamed: 0_level_0,proportion
label,Unnamed: 1_level_1
1,0.571895
0,0.428105


In [None]:
target.value_counts()



### Histogramas

## C. Análisis conjunto de datos

El conjunto PhiUSIIL Phishing URL Datasetcontiene  235,795 registros, de los cuales cada uno representa una URL etiquetada como:

- 1:Sitio legítimo  

- 0:Sitio de phishing  

Cada registro incluye 55 atributos que describen propiedades de la URL y de la página web asociada con su respectiva etiqueta, de estos, 51 son de tipo númerico, y 4 de tipo categórico (FILENAME, URL, TLD y Title). Entre las categorías de características más relevantes se encuentran:  

**Características léxicas:** longitud de la URL (URLLength), número de subdominios (NoOfSubDomain), presencia de caracteres sospechosos como “@”, “//”, “-” (NoOfOtherSpecialCharsInURL).

**Características basadas en contenido HTML:** Número total de líneas de código (LineOfCode), la existencia de un título (HasTitle) y su relación con el dominio o la URL (DomainTitleMatchScore, URLTitleMatchScore); la presencia de etiquetas visuales o de contenido como imágenes (NoOfImage), hojas de estilo (NoOfCSS) y scripts (NoOfJS).

**Características derivadas del dominio:** La detección de una dirección IP en lugar de un nombre de dominio (IsDomainIP), TLD y TLDLenght, y TLDLegitimateProb que evalúa la parte final de las URL (.gov, .com, .net), presencia de HTTPS (IsHTTPS) para validar si le sitio posee un certificado.

El dataset fue recopilado a partir de múltiples fuentes y validado manualmente. No contiene valores faltantes y está balanceado entre clases con 57% legítimas vs 43% phishing.

Esta estructura lo hace adecuado para evaluar distintos algoritmos dentro del paradigma de aprendizaje supervisado, tales como Random Forest, SVM, Logistic Regression, XGBoost, LightGBM o redes neuronales profundas.

## D. Paradigma de aprendizaje y justificación

El proyecto se enmarca en el aprendizaje supervisado con una tarea de clasificación binaria, cuyo objetivo es distinguir entre URLs legítimas y maliciosas (phishing).  

Dado que cada muestra cuenta con una etiqueta previamente asignada (0 o 1), los modelos pueden aprender patrones discriminativos a partir de los atributos descritos.  

Las métricas empleadas para la evaluación del rendimiento incluirán:
- Accuracy
- Precision
- Recall
- F1-score

La métrica F1-score será especialmente importante para reducir los falsos negativos, es decir, los casos en los que un sitio de phishing se clasifica erróneamente como legítimo, con el uso de este dataset se permitirá comparar diversos modelos de aprendizaje automático con técnicas de optimización y validación cruzada, asegurando una evaluación rigurosa, reproducible y aplicable a contextos reales de ciberseguridad.

# 2.   Estado del arte



## A. *Vajrobol et al.*

1.   *Paradigma de aprendizaje:* Dado que la base de datos PhiUSIIL contiene ejemplos previamente etiquetados como URLs legítimas y URLs maliciosas, los diferentes trabajos abordados están bajo el paradigma de aprendizaje supervisado, en donde el modelo aprende a distinguir entre las clases a partir de las etiquetas proporcionadas.
2.   *Técnicas utilizadas:* Se usa la técnica de regresión logística en conjunción con selección de características basada en información mutua, los autores resaltan que la combinación de estas técnicas hacen al modelo simple y eficiente, facilitando su interpretabilidad y manteniendo un equilibrio entre precisión y simplicidad.
3. *Metodología de validación aplicada:* Como metodología de validación, se particionó el conjunto de datos a un ratio de 80:20 (train:test)
4. *Métricas utilizadas:* el desempeño del modelo fue evaluado mediante las métricas de *Accuracy*, *Precision*, *Recall*, *F1-score*, y se complementó con matrices de confusión.
5. *Resultados obtenidos:* En la conclusión llegaron a una *accuracy* del 99.97% alcanzando esos resultados sólo con 5 características: ”URLSimilarityIn-
dex,” ”LineOfCode,” ”NoOfExternalRef,” ”NoOfImage,” y ”NoOfSel-
fRef.”. Con ello concluyeron que la técnica de selección de características *Mutual Information* en conjunto con la regresión logística puede ser un modelo muy útil, confiable, preciso, y fácil de entender, para tareas de identificar URLs maliciosas.

## B. *Sruthi K. & Manohar Naik S.*

1.   *Paradigma de aprendizaje:* Supervisado, por las mismas razones descritas anteriormente, pues se usó el mismo conjunto de datos.
2.   *Técnicas utilizadas:* Se usa una red neuronal siamesa con subredes LSTM, esta red neuronal procesa pares de URLs que, a través de cada subred LSTM generar una representación que se comparará posteriormente mediante una medida de distancia euclidiana, para determinar la similitud entre ellas, de modo que el modelo aprende a reducir la distancia entre pares similares y a aumentarla entre pares disimilares.
3.   *Metodología de validación aplicada:* Se empleó la metodología de validación cruzada *5-fold cross-validation*, y fue complementada con estudios de ablación y sensibilidad para medir la estabilidad del modelo.
4.   *Métricas utilizadas:* el desempeño del modelo fue evaluado mediante las métricas de *Accuracy*, *Precision*, *Recall*, *F1-score*.
5.   *Resultados obtenidos:* en los conjuntos estándar se obtuvo un *accuracy* del 99.68%, y demostró tener un desempeño similar para muestras generadas usando GPT 4.0, demostrando que podría ser una herramienta efectiva para mitigar los ciberataques de phishing basados en IA.



## C. *Manguli et al.*

1.   *Paradigma de aprendizaje:* Se utilizaron los conjuntos de datos PhishTank para la obtención de URLs maliciosas, y de Alexa para la obtención de URLs legítimas, por lo que corresponde a un problema de aprendizaje supervisado.
2.   *Técnicas utilizadas:* Se usa Graph Neural Network (GNN), específicamente el algoritmo GraphSAGE que tiene la capacidad de generalizar a nuevos nodos o grafos no vistos durante el entrenamiento.
3.   *Metodología de validación aplicada:* Se empleó la metodología de validación cruzada *5-fold cross-validation*
4.   *Métricas utilizadas:* Se evaluó el desempeño mediante las métricas de *Accuracy*, *Precision*, *Recall*, *F1-score* y *AUC-ROC*
5.   *Resultados obtenidos:* El modelo GraPhish obtuvo un *accuracy* del 98.96%, por lo que resultó ser una gran alternativa cuando se quiere reducir la dependencia del contenido del mensaje (al usar los paquetes de red encriptados).

## D. *Fatma Hendaoui & Saloua Hendaoui*

1.   *Paradigma de aprendizaje:* Se construye un sistema denominado SENTINEY, que hace uso de técnicas tanto del aprendizaje supervisado (para clasificar correo legítimos vs maliciosos) como del no supervisado (detectar anomalías en los correos).
2.   *Técnicas utilizadas:* Isolation Forest, One-Class SVM, Elliptic Envelope, K-Means, DBSCAN, Agglomerative Clustering Algorithms, Birch, GMM, como técnicas no supervisadas; Como técnicas supervisadas MLP, Random Forest,  y Gradient Boosting.
3.   *Metodología de validación aplicada:* Por el diseño del sistema (SMPC) no se hizo una validación estadística formal sino que se optó por ejecutar pruebas en entornos controlados y distribuidos en los que se ejecutaban los distintos algoritmos para evaluar simultáneamente los más óptimos en distintas situaciones.
4.   *Métricas utilizadas:* el desempeño del sistema fue evaluado mediante las métricas de *Accuracy*, *Precision*, *Recall*, *F1-score*. Adicionalmente midieron el *Average Detection Time*, y *silhouette score* para evaluar el desempeño de los módulos de aprendizaje no supervisado.
5.   *Resultados obtenidos:* Se obtuvo una *accuracy* del 99.4% con un *Average Detection Time* de 0.89 segundos por correo. Concluyendo que el módulo con métodos supervisados fue más eficiente para identificar correos de phishing conocidos mientras que el otro módulo fue más eficaz para identificar los *zero-day attacks*