# 1. **Descripción del Problema y Objetivos**

## **Descripción del Problema y Objetivos**

El objetivo de este proyecto es diseñar un modelo de clasificación binaria capaz de identificar URLs de phishing, diferenciándolas de URLs legítimas. Para ello, se utilizará un dataset balanceado de 11,430 URLs etiquetadas, que incluye 87 características extraídas de tres categorías principales:

1. **Estructura y Sintaxis**: Analiza la composición del URL, incluyendo longitud, caracteres especiales y patrones sospechosos.
2. **Contenido Basado en la Página Web**: Incluye información sobre hipervínculos, elementos visuales (favicons, títulos) y formularios de login.
3. **Consultas Externas**: Datos derivados de servicios como WHOIS, DNS y Google Index.

La evaluación del modelo se realizará utilizando el **F1-score**, una métrica que equilibra precisión y recall, asegurando que el modelo detecte el mayor número posible de sitios de phishing, minimizando los falsos positivos. Este proyecto es parte de una competencia en Kaggle para estudiantes del curso "Modelos de Toma de Decisión" del Máster en Data Analytics de Loyola Andalucía (2024-25).

---

## **Resumen Clave del Dataset**

1. **Generalidades**:
   - **Dataset**: 11,430 URLs etiquetadas como phishing (50%) o legítimas (50%).
   - **Categorías de características**:
     - **Estructura y sintaxis (56)**: Análisis de la composición del URL, como longitud, caracteres especiales, y patrones.
     - **Basadas en contenido (24)**: Análisis del contenido de la página web, como hipervínculos, redirecciones y elementos visuales (favicons, títulos).
     - **Consultas externas (7)**: Datos extraídos de servicios externos, como WHOIS, DNS, y Google Index.

2. **Variables Relevantes**:
   - **Target (`status`)**: 
     - **0**: URL legítima.
     - **1**: URL de phishing.
   - **Componentes del URL**: Longitud del dominio (`length_hostname`), caracteres especiales (`nb_dots`, `nb_slash`), uso de HTTPS (`https_token`), etc.
   - **Contenido**: Hipervínculos internos y externos (`ratio_intHyperlinks`, `ratio_extHyperlinks`), formulario de login (`login_form`), presencia de `onmouseover` o `iframe`.
   - **Consultas externas**: Edad del dominio (`domain_age`), posición en Google Index (`google_index`), PageRank (`page_rank`).

3. **Propósito del Dataset**:
   - Diseñar un modelo de clasificación binaria que identifique URLs de phishing.
   - Evaluar el modelo con el **F1-score**, equilibrando precisión y recall.


## **Listado de Variables, Detalles y Significado**

### 1. **Target**
- **`status`**: Indica si el URL es de phishing o legítimo.
  - **Valores**:
    - **0**: URL legítima.
    - **1**: URL de phishing.

---

### 2. **Estructura y Sintaxis (56 variables)**

- **`url`**: URL completa de la página web.
  - **Significado**: Contiene la dirección completa que se analizará.

- **`length_url`**: Longitud del URL.
  - **Significado**: URLs más largos pueden ser sospechosos.

- **`length_hostname`**: Longitud del hostname (dominio).
  - **Significado**: Hostnames más largos pueden indicar phishing.

- **`ip`**: Indica si aparece una dirección IP en el hostname.
  - **Valores**: 
    - **0**: No contiene una IP.
    - **1**: Contiene una IP.
  - **Significado**: Las IPs suelen utilizarse en sitios maliciosos.

- **`nb_dots`, `nb_hyphens`, `nb_at`, `nb_qm`, `nb_and`, `nb_or`, `nb_eq`, `nb_underscore`, `nb_tilde`, `nb_percent`, `nb_slash`, `nb_star`, `nb_colon`, `nb_comma`, `nb_semicolumn`, `nb_dollar`, `nb_space`, `nb_www`, `nb_com`, `nb_dslash`**:
  - **Significado**: Cantidad de caracteres especiales en el URL, indicadores de complejidad o sospecha.

- **`http_in_path`**: Número de veces que aparece "http" o "https" en el camino del URL.
  - **Significado**: URLs maliciosos pueden repetir estos términos para confundir.

- **`https_token`**: Indica si el protocolo es HTTPS.
  - **Valores**: 
    - **0**: Utiliza HTTPS.
    - **1**: No utiliza HTTPS.
  - **Significado**: HTTPS es más seguro, su ausencia puede ser sospechosa.

- **`ratio_digits_url`, `ratio_digits_host`**: Proporción de dígitos en el URL o hostname.
  - **Significado**: Altos ratios de dígitos pueden ser indicadores de phishing.

- **`punycode`**: Indica si el dominio usa Punycode.
  - **Valores**:
    - **0**: No utiliza Punycode.
    - **1**: Utiliza Punycode.
  - **Significado**: Punycode puede usarse para imitar dominios legítimos.

- **`port`**: Indica la presencia de un puerto en el dominio.
  - **Valores**: 
    - **0**: No incluye puerto.
    - **1**: Incluye puerto.
  - **Significado**: Los puertos no estándar pueden ser sospechosos.

- **`tld_in_path`, `tld_in_subdomain`**: Indica si el TLD aparece en el camino o subdominio.
  - **Significado**: Usar TLD en partes inusuales puede indicar phishing.

- **`abnormal_subdomain`**: Indica si hay subdominios anormales como "wwww-".
  - **Significado**: Subdominios anormales suelen aparecer en phishing.

- **`nb_subdomains`**: Número de subdominios en el URL.
  - **Valores**:
    - **1**: Sin subdominios.
    - **2**: Un subdominio.
    - **3**: Múltiples subdominios.
  - **Significado**: Subdominios excesivos pueden ser sospechosos.

- **`prefix_suffix`**: Indica si el dominio tiene guiones (-).
  - **Valores**:
    - **0**: Sin guiones.
    - **1**: Con guiones.
  - **Significado**: Guiones en el dominio son comunes en phishing.

- **`random_domain`**: Indica si el dominio contiene caracteres aleatorios.
  - **Significado**: Dominios aleatorios son característicos de phishing.

- **`shortening_service`**: Indica si se usa un servicio de acortamiento de URL.
  - **Significado**: Acortadores ocultan el destino real del URL.

- **`phish_hints`**: Presencia de palabras comunes de phishing (e.g., "login", "admin").
  - **Significado**: Palabras clave en URLs pueden ser indicadores.

- **`domain_in_brand`, `brand_in_subdomain`, `brand_in_path`**: Indica si aparece el nombre de una marca conocida.
  - **Significado**: Uso de marcas conocidas es un truco de phishing.

- **`suspecious_tld`**: Indica si el TLD es considerado sospechoso.
  - **Significado**: Algunos TLD son más utilizados en phishing.

---

### 3. **Contenido Basado en la Página Web (24 variables)**

- **`nb_hyperlinks`**: Número de hipervínculos en la página.
  - **Significado**: Un número excesivo de enlaces puede ser sospechoso.

- **`ratio_intHyperlinks`, `ratio_extHyperlinks`, `ratio_nullHyperlinks`**:
  - **Significado**: Relación entre enlaces internos, externos y vacíos.

- **`login_form`**: Indica si hay un formulario de login en la página.
  - **Significado**: Formularios de login externos suelen ser maliciosos.

- **`iframe`**: Indica si hay un iframe invisible.
  - **Significado**: Iframes invisibles son usados en ataques.

- **`onmouseover`, `right_clic`, `popup_window`**:
  - **Significado**: Uso de eventos JavaScript como `onmouseover` o bloqueo del clic derecho puede indicar comportamiento sospechoso.

---

### 4. **Consultas Externas (7 variables)**

- **`domain_registration_length`, `domain_age`**:
  - **Significado**: Dominios nuevos o con registros cortos son típicos de phishing.

- **`whois_registered_domain`**: Indica si el dominio está registrado.
  - **Significado**: Dominios no registrados son sospechosos.

- **`page_rank`, `web_traffic`, `google_index`**:
  - **Significado**: Baja popularidad o no estar indexado en Google puede ser señal de phishing.

- **`dns_record`**: Indica si el dominio tiene registros DNS válidos.
  - **Significado**: Ausencia de DNS válido puede indicar phishing.


## **2.2 Importar Librerías**

In [None]:
## **2.2 Importar Librerías**

# Importar librerías esenciales
import pandas as pd  # Manipulación y análisis de datos
import numpy as np  # Operaciones matemáticas y numéricas

# --- Visualización de datos
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

# Librerías para preprocesamiento
from sklearn.model_selection import train_test_split  # División de datos en entrenamiento y prueba
from sklearn.preprocessing import StandardScaler  # Normalización de datos

# Librerías para modelos de machine learning
from sklearn.ensemble import RandomForestClassifier  # Modelo de clasificación basado en bosques aleatorios
from sklearn.linear_model import LogisticRegression  # Regresión logística para clasificación
from sklearn.tree import DecisionTreeClassifier  # Árbol de decisión

# Librerías para evaluación de modelos
from sklearn.metrics import classification_report, confusion_matrix, f1_score  # Métricas de evaluación

# --- Otras herramientas
import math
import random
from IPython.display import display
import joblib
import datetime
import time


# ===============================
# CONFIGURACIÓN GLOBAL
# ===============================

# Configuración adicional
import warnings
warnings.filterwarnings("ignore")  # Ignorar advertencias para mantener el output limpio

# --- Configuración de la semilla aleatoria
RANDOM_SEED = 42
random.seed(RANDOM_SEED)
np.random.seed(RANDOM_SEED)

# --- Configuración de gráficos
sns.set_palette('viridis')
plt.style.use('ggplot')
