In [0]:
%spark

import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.functions._
spark.conf.set("spark.sql.legacy.allowUntypedScalaUDF", "true")

val data = spark
.read
.option("inferSchema", "true")
.option("header", "true")
.option("delimiter", ",")
.csv("/home/carlos/Descargas/PhiUSIIL_Phishing_URL_Dataset.csv")

In [1]:
%spark
data.printSchema()

In [2]:
%spark
/*
Security Score:
SI ES MAYOR O IGUAL A 5  Puntuación alta, muy seguro
SI ES ENTRE 0 Y 5    Puntuación media, razonablemente seguro
SI ES ENTRE -5 Y 0  Puntuación baja, algo sospechoso
SI ES MENOR QUE -5  Puntuación muy baja, altamente sospechoso
*/
def getSecurityCategory(
    IsHTTPS: Int,
    HasTitle: Int,
    Robots: Int,
    HasCopyrightInfo: Int,
    HasObfuscation: Int,
    NoOfURLRedirect: Int,
    NoOfPopup: Int,
    NoOfiFrame: Int,
    HasExternalFormSubmit: Int,
    HasPasswordField: Int,
    Bank: Int,
    Pay: Int,
    Crypto: Int,
    URLCharProb: Double,
    URLLength: Int,
    NoOfSubDomain: Int
): String = {

    var score = 0 

    // Características que suman puntos a favor
    if (IsHTTPS == 1) score += 3
    if (HasTitle == 1) score += 2
    if (Robots == 1) score += 1
    if (HasCopyrightInfo == 1) score += 3

    // Características que restan puntos a favor
    if (HasObfuscation == 1) score -= 2
    if (NoOfURLRedirect > 0) score -= 2
    if (NoOfPopup > 0) score -= 3
    if (NoOfiFrame > 0) score -= 1
    if (HasExternalFormSubmit == 1) score -= 2
    if (HasPasswordField == 0 && (Bank == 1 || Pay == 1 || Crypto == 1)) score -= 4 // Si no necesita password, pero si banco, pago o cripto, restar varios puntos
    if (URLCharProb < 0.5) score -= 2

    // COnsideraciones mínimas que restan puntos a favor.
    if (URLLength > 100) score -= 1
    if (NoOfSubDomain > 3) score -= 1

    // Definir los rangos y retornar la categoría
    score match {
        case s if s >= 5 => "HIGH"       
        case s if s >= 0 && s < 5 => "MEDIUM"   
        case s if s >= -5 && s < 0 => "LOW"     
        case s if s < -5 => "VERY LOW"   
        case _ => "UNDEFINED"              
    }
}

// Crear función UDF para que pueda ser usada en cada iteración: 
val getSecurityCategoryUdf = udf(getSecurityCategory(
    _: Int, _: Int, _: Int, _: Int, _: Int, _: Int, _: Int, _: Int,
    _: Int, _: Int, _: Int, _: Int, _: Int, _: Double, _: Int, _: Int
), StringType)

In [3]:
%spark
// Función para calcular la complejidad de la URL
/*
var complexityScore = 0.0

// Ponderar diferentes aspectos de la complejidad
complexityScore += NoOfSubDomain * 1.5 // Más subdominios, más complejo
complexityScore += URLLength * 0.1     // URLs más largas, más complejas
complexityScore += NoOfOtherSpecialCharsInURL * 1.0 // Más caracteres especiales, más complejo
complexityScore += SpacialCharRatioInURL * 5.0 // Un ratio alto de caracteres especiales indica complejidad

1. Simple
Rango: complexityScore < 10

Justificación: URLs muy cortas, con pocos o ningún subdominio, y sin caracteres especiales inusuales. Piensa en sitios web muy directos como google.com o example.org/about. La puntuación es baja porque los multiplicadores de longitud y caracteres especiales serían mínimos.

2. Medium
Rango: 10 <= complexityScore < 30

Justificación: Incluye URLs de longitud moderada, con quizás uno o dos subdominios, y una presencia limitada de caracteres especiales. Por ejemplo, blog.example.com/category/article-title-123. Estas URLs son comunes y no suelen levantar sospechas solo por su estructura.

3. Complex
Rango: 30 <= complexityScore < 60

Justificación: Aquí empezamos a ver URLs más largas, con varios subdominios (3+), o una cantidad notable de caracteres especiales (?, &, #, etc.) que indican parámetros complejos o estructuras de ruta elaboradas. Un ejemplo podría ser app.secure.data.example.com/dashboard?param1=value&id=12345. URLs de este tipo pueden ser legítimas pero ya tienen una estructura que es un poco más difícil de "leer" a simple vista.

4. Very Complex
Rango: complexityScore >= 60

Justificación: Estas serían URLs extremadamente largas, con una gran cantidad de subdominios, o un uso excesivo de caracteres especiales y codificación. Este tipo de URLs a menudo se asocian con intentos de phishing o con la ofuscación para ocultar el destino real de un enlace. Por ejemplo, URLs generadas automáticamente con muchos parámetros de seguimiento o URLs con múltiples redirecciones y cadenas de caracteres codificadas.

*/
def getUrlComplexity(NoOfSubDomain : Int, URLLength : Int, NoOfOtherSpecialCharsInURL : Int, SpacialCharRatioInURL : Double) : String = {
    val complexityScore = (NoOfSubDomain * 1.5) + (URLLength * 0.1) + (NoOfOtherSpecialCharsInURL * 1.0) + (SpacialCharRatioInURL * 5.0)
     complexityScore match {
        case score if score < 10 => "SIMPLE"
        case score if score < 30 => "MEDIUM"
        case score if score < 60 => "COMPLEX"
        case score if score >= 60 => "VERY COMPLEX"
        case _ => "UNDEFINED" 
    }
    
}

//Función UDF para que pueda ser usada en cada iteración

val getUrlComplexityUdf = udf(getUrlComplexity(
    _: Int, _: Int, _: Int, _: Double), StringType)




In [4]:
%spark
/*
CONTENT PRESENCE RATIO:
// Inicializar el ratio
var contentRatio = 0.0

val totalContentElements = NoOfImage + NoOfCSS + NoOfJS

if (LineOfCode > 0) {
    contentRatio = totalContentElements.toDouble / LineOfCode.toDouble
} else {
    contentRatio = 0.0 // Evitar división por cero
}

// Si tiene título, podría sumar un poco más al ratio de contenido percibido
if (HasTitle == 1) {
    contentRatio += 0.1 // Pequeño incremento si tiene título
}

LOW Content Presence Ratio
Rango Sugerido: contentRatio < 0.2

Inferencias:

Páginas muy básicas o "vacías": Este rango sugiere que la página tiene muy pocas imágenes, CSS o JavaScript en relación con sus líneas de código, o incluso que LineOfCode es bajo y aún así no hay mucho contenido.

Sitios de phishing rudimentarios: Muchos sitios de phishing son plantillas muy simples, con poco diseño y funcionalidad, enfocados únicamente en la captura de credenciales. No invierten en mucho CSS, JS o imágenes complejas.

Páginas de error o redirección: Podrían ser páginas de error genéricas o redirecciones que no cargan mucho contenido antes de enviar al usuario a otro lugar.

Contenido puramente textual: Podrían ser páginas con solo texto, sin elementos multimedia o de estilo. Esto es menos común en sitios web modernos legítimos que buscan interacción.

2. MEDIUM Content Presence Ratio
Rango Sugerido: 0.2 <= contentRatio < 0.6

Inferencias:

Sitios web funcionales pero no complejos: Estas URLs probablemente apuntan a páginas con un diseño decente, algunas imágenes, hojas de estilo básicas y scripts. Son páginas que tienen una funcionalidad clara sin ser visualmente abrumadoras o excesivamente interactivas.

Páginas legítimas promedio: Muchas páginas de blogs, artículos, o tiendas en línea con un diseño estándar podrían caer en esta categoría. Tienen los elementos necesarios para una buena experiencia de usuario, pero no son aplicaciones web pesadas.

Phishing más sofisticado: Algunos sitios de phishing más avanzados pueden intentar replicar la apariencia de un sitio legítimo, por lo que podrían tener un ratio en este rango para parecer más creíbles.

3. HIGH Content Presence Ratio
Rango Sugerido: contentRatio >= 0.6

Inferencias:

Sitios web ricos en contenido y funcionalidad: Este rango indica una fuerte presencia de elementos visuales (imágenes), estilos (CSS complejos) y interactividad (JavaScript significativo). Piensa en aplicaciones web, portales multimedia, o tiendas en línea con muchas imágenes de productos y características interactivas.

Páginas legítimas y bien desarrolladas: Es muy probable que estas URLs correspondan a sitios legítimos que han invertido en su diseño y experiencia de usuario.

Páginas de destino multimedia: Si la página es una galería de imágenes, un reproductor de video o un juego online, el ratio será alto debido a la cantidad de recursos.



*/

def getPresenceRatio(NoOfImage : Int, NoOfCSS : Int, NoOfJS : Int, LineOfCode : Int) : String = {
    
val totalContentElements = NoOfImage + NoOfCSS + NoOfJS
val contentRatio = if (LineOfCode > 0) {
    totalContentElements.toDouble / LineOfCode.toDouble 
}else{
    0.0
} 

  contentRatio match {
        case ratio if ratio < 0.05 => "VERY LOW"
        case ratio if ratio < 0.2 => "LOW"
        case ratio if ratio < 0.6 => "MEDIUM"
        case ratio if ratio >= 0.6 => "HIGH"
        case _ => "UNDEFINED" 
    }

}

//Función UDF para que pueda ser usada en cada iteración

val getPresenceRatioUdf = udf(getPresenceRatio(
    _: Int, _: Int, _: Int, _: Int), StringType)

In [5]:
%spark
/*
Poblar la tabla con SecurityScore
*/
val dataWithSecurity = data.withColumn(
    "SecurityCategory",
    getSecurityCategoryUdf(
        col("IsHTTPS"),
        col("HasTitle"),
        col("Robots"),
        col("HasCopyrightInfo"),
        col("HasObfuscation"),
        col("NoOfURLRedirect"),
        col("NoOfPopup"),
        col("NoOfiFrame"),
        col("HasExternalFormSubmit"),
        col("HasPasswordField"),
        col("Bank"),
        col("Pay"),
        col("Crypto"),
        col("URLCharProb"),
        col("URLLength"),
        col("NoOfSubDomain")
    )
)

dataWithSecurity.select($"URL", $"SecurityCategory").where($"SecurityCategory" === "VERY LOW").count

In [6]:
%spark
/*
Poblar la tabla con URL complexity:
*/

val dataWithComplexityUrl = data.withColumn(
    "UrlComplexity",
    getUrlComplexityUdf(
        col("NoOfSubDomain"),
        col("URLLength"),
        col("NoOfOtherSpecialCharsInURL"),
        col("SpacialCharRatioInURL"),
    )
)

dataWithComplexityUrl.select($"URL", $"UrlComplexity").where($"UrlComplexity" === "VERY COMPLEX").count

In [7]:
%spark
/*
Poblar la tabla con presencia de contenido
*/
val dataWithPresenceRatio = data.withColumn(
    "PresenceRatio",
    getPresenceRatioUdf(
        col("NoOfImage"),
        col("NoOfCSS"),
        col("NoOfJS"),
        col("LineOfCode"),
    )
)


dataWithPresenceRatio.select($"URL", $"PresenceRatio").where($"PresenceRatio" === "MEDIUM").show(false)


In [8]:
%spark
data.count()

In [9]:
%spark
