In [1]:
import pandas as pd
from urllib.parse import urlparse

# --------------------------
# 1) Cargar dataset
# --------------------------
PATH = "../data/clean/dataset_base_v21.csv"
df = pd.read_csv(PATH).copy()

# --------------------------
# 2) Definir tokens sospechosos (versión mínima v2)
# --------------------------
SUSPICIOUS_TOKENS = [
    "acceso", "login", "clientes", "seguridad",
    "verificar", "confirmar", "actualizar",
    "cuenta", "recibir", "paquete", "sms",
    "pin", "validacion", "pago"
]

# --------------------------
# 3) Calcular la feature
# --------------------------
def detect_suspicious_token(path):
    path = path.lower()
    return int(any(token in path for token in SUSPICIOUS_TOKENS))

df["suspicious_path_token_calc"] = df["url"].apply(lambda u: detect_suspicious_token(urlparse(u).path))

# --------------------------
# 4) Métricas por clase
# --------------------------
print("Distribución por clase:")
display(df.groupby("label")["suspicious_path_token_calc"].mean())

# --------------------------
# 5) Ejemplos donde se activa (deben ser phishing)
# --------------------------
print("\nEjemplos suspicious_path_token_calc = 1")
display(df[df["suspicious_path_token_calc"] == 1].head(20)[["url","label"]])

# --------------------------
# 6) Posibles falsos positivos
# --------------------------
print("\nFalsos positivos potenciales (legítimas con token sospechoso):")
display(df[(df["label"] == 0) & (df["suspicious_path_token_calc"] == 1)].head(20)[["url"]])


Distribución por clase:


label
0    0.245902
1    0.399194
Name: suspicious_path_token_calc, dtype: float64


Ejemplos suspicious_path_token_calc = 1


Unnamed: 0,url,label
17,https://www.myinvestor.es/cuentas/,0
18,https://mioficina.correos.es/es/es/login,0
20,https://www.correos.es/es/es/atencion-al-clien...,0
22,https://www.correos.es/es/es/particulares/envi...,0
25,https://www.correos.es/es/es/particulares/reci...,0
26,https://www.correos.es/es/es/particulares/reci...,0
27,https://www.correos.es/es/es/particulares/reci...,0
29,https://www.correos.es/es/es/particulares/reci...,0
30,https://www.correos.es/es/es/particulares/recibir,0
39,https://www.caixabank.es/particular/seguridad/...,0



Falsos positivos potenciales (legítimas con token sospechoso):


Unnamed: 0,url
17,https://www.myinvestor.es/cuentas/
18,https://mioficina.correos.es/es/es/login
20,https://www.correos.es/es/es/atencion-al-clien...
22,https://www.correos.es/es/es/particulares/envi...
25,https://www.correos.es/es/es/particulares/reci...
26,https://www.correos.es/es/es/particulares/reci...
27,https://www.correos.es/es/es/particulares/reci...
29,https://www.correos.es/es/es/particulares/reci...
30,https://www.correos.es/es/es/particulares/recibir
39,https://www.caixabank.es/particular/seguridad/...
