## LABORATORIO 1

### Security Data Science

- Alejandra Guzmán: 20262 ✨👩‍💻
- Eduardo Ramirez:  ✨👨‍💻

Universidad: Universidad del Valle
Clase: Security Data Science


In [1]:
import pandas as pd


dataset_path = 'dataset_pishing.csv'
df = pd.read_csv(dataset_path)

df.head()

Unnamed: 0,url,status
0,http://www.crestonwood.com/router.php,legitimate
1,http://shadetreetechnology.com/V4/validation/a...,phishing
2,https://support-appleld.com.secureupdate.duila...,phishing
3,http://rgipt.ac.in,legitimate
4,http://www.iracing.com/tracks/gateway-motorspo...,legitimate


In [2]:
status_counts = df['status'].value_counts()

status_counts

status
legitimate    5715
phishing      5715
Name: count, dtype: int64

El dataset contiene 5715 observaciones etiquetadas como "legitimate" y 5715 observaciones etiquetadas como "phishing". Esto indica que el dataset por lo tanto se puede considerar como balanceado.

### ¿Qué ventajas tiene el análisis de una URL contra el análisis de otros datos, cómo el tiempo de vida del dominio, o las características de la página Web?

- Se puede mencionar la capacidad de detectar phishing sin necesidad de acceder al contenido de la página, lo cual permite realizar detecciones en tiempo real. Lo cual se debe a que las URL pueden contener indicadores únicos de phishing, independientemente de las tácticas de ocultamiento dentro del contenido de la página.


### ¿Qué características de una URL son más prometedoras para la detección de phishing?

- Las características de una URL prometedoras para la detección de phishing incluyen el uso de caracteres no alfanuméricos (NAN), como puntos extra, "//" para redirigir a un dominio completamente diferente, "-" en el dominio para imitar un nombre de sitio web similar y símbolos innecesarios. Estos elementos sugieren que la distribución de estos caracteres puede impactar significativamente en la clasificación de sitios web como phishing o legítimos.

- Longitud de la URL: URLs más largas pueden ser sospechosas.
- Uso de HTTPS: La ausencia de HTTPS puede ser un indicador de phishing.
- Presencia de IP: URLs con direcciones IP en lugar de nombres de dominio pueden ser sospechosas.
- Número de puntos: Un número excesivo de puntos puede indicar intentos de engaño.
- Presencia de "@": El símbolo "@" se usa para engañar sobre el verdadero dominio.
- Uso de guiones: Los guiones se utilizan frecuentemente en URLs phishing para imitar a dominios legítimos.
- Número de subdominios: Un alto número de subdominios puede ser sospechoso.
- Presencia de palabras clave sensibles: Palabras como "login", "update", "verify" pueden indicar intentos de phishing.
- Longitud del path: Un path muy largo puede ser sospechoso.
- Número de caracteres no alfanuméricos: Un exceso puede ser indicativo de URLs maliciosas.
- Uso de puertos no estándar: La presencia de puertos no estándar en la URL puede ser un indicador de phishing.
- Entropía de caracteres: Medir la complejidad de la URL puede ayudar a detectar patrones sospechosos.
- Presencia de dominios de nivel superior (TLD) sospechosos: Algunos TLD son más comunes en URLs de phishing.
- Número de parámetros en la query: URLs con muchos parámetros pueden ser sospechosas.
- Presencia de fragmentos: La utilización de fragmentos en la URL puede ser un indicador de comportamiento malicioso.

In [3]:
from urllib.parse import urlparse, parse_qs
import re


def url_length(url):
    return len(url)

def using_https(url):
    return 1 if urlparse(url).scheme == 'https' else 0

def presence_of_ip(url):
    return 1 if re.search(r'\b(?:\d{1,3}\.){3}\d{1,3}\b', url) else 0

def number_of_dots(url):
    return url.count('.')

def presence_of_at_symbol(url):
    return 1 if "@" in url else 0

def usage_of_hyphen(url):
    return 1 if "-" in url else 0

def number_of_subdomains(url):
    return len(urlparse(url).netloc.split('.')) - 2  

def presence_of_sensitive_words(url):
    sensitive_words = ['login', 'update', 'verify']
    return 1 if any(word in url for word in sensitive_words) else 0

def path_length(url):
    return len(urlparse(url).path)

def number_of_non_alphanumeric_characters(url):
    return len(re.findall(r'\W', url))

def usage_of_non_standard_ports(url):
    port = urlparse(url).port
    return 1 if port and port not in [80, 443] else 0

def entropy_of_characters(url):
 
    prob = [float(url.count(c)) / len(url) for c in dict.fromkeys(list(url))]
    entropy = - sum([p * (p / len(url)) for p in prob])
    return entropy

def presence_of_suspicious_tld(url):
    suspicious_tlds = ['.biz', '.info', '.top', '.xyz']
    return 1 if any(url.endswith(tld) for tld in suspicious_tlds) else 0

def number_of_parameters(url):
    return len(parse_qs(urlparse(url).query))

def presence_of_fragments(url):
    return 1 if urlparse(url).fragment else 0

# Aplicar las funciones al dataset
features = ['url_length', 'using_https', 'presence_of_ip', 'number_of_dots',
            'presence_of_at_symbol', 'usage_of_hyphen', 'number_of_subdomains',
            'presence_of_sensitive_words', 'path_length',
            'number_of_non_alphanumeric_characters', 'usage_of_non_standard_ports',
            'entropy_of_characters', 'presence_of_suspicious_tld',
            'number_of_parameters', 'presence_of_fragments']

for feature in features:
    df[feature] = df['url'].apply(globals()[feature])

df.head()

Unnamed: 0,url,status,url_length,using_https,presence_of_ip,number_of_dots,presence_of_at_symbol,usage_of_hyphen,number_of_subdomains,presence_of_sensitive_words,path_length,number_of_non_alphanumeric_characters,usage_of_non_standard_ports,entropy_of_characters,presence_of_suspicious_tld,number_of_parameters,presence_of_fragments
0,http://www.crestonwood.com/router.php,legitimate,37,0,0,3,0,0,1,0,11,7,0,-0.002191,0,0,0
1,http://shadetreetechnology.com/V4/validation/a...,phishing,77,0,0,1,0,0,0,0,47,7,0,-0.000778,0,0,0
2,https://support-appleld.com.secureupdate.duila...,phishing,126,1,0,4,0,1,3,1,20,17,0,-0.00034,0,3,0
3,http://rgipt.ac.in,legitimate,18,0,0,2,0,0,1,0,0,5,0,-0.005487,0,0,0
4,http://www.iracing.com/tracks/gateway-motorspo...,legitimate,55,0,0,2,0,1,1,0,33,10,0,-0.001196,0,0,0


In [4]:
df['status_binary'] = df['status'].map({'legitimate': 0, 'phishing': 1})
df_preprocessed = df.drop(['url', 'status'], axis=1)
df_preprocessed.head()

Unnamed: 0,url_length,using_https,presence_of_ip,number_of_dots,presence_of_at_symbol,usage_of_hyphen,number_of_subdomains,presence_of_sensitive_words,path_length,number_of_non_alphanumeric_characters,usage_of_non_standard_ports,entropy_of_characters,presence_of_suspicious_tld,number_of_parameters,presence_of_fragments,status_binary
0,37,0,0,3,0,0,1,0,11,7,0,-0.002191,0,0,0,0
1,77,0,0,1,0,0,0,0,47,7,0,-0.000778,0,0,0,1
2,126,1,0,4,0,1,3,1,20,17,0,-0.00034,0,3,0,1
3,18,0,0,2,0,0,1,0,0,5,0,-0.005487,0,0,0,0
4,55,0,0,2,0,1,1,0,33,10,0,-0.001196,0,0,0,0
