# Explore here

In [1]:
# BLOQUE 01
# ESTRUCTURA DEL PROYECTO
# - Crea carpetas para dataset, modelos y reportes
# - Mantiene el repo limpio y reproducible

import os

os.makedirs("data/raw", exist_ok=True)
os.makedirs("models", exist_ok=True)
os.makedirs("reports", exist_ok=True)

print("OK -> data/raw, models, reports")
# Resultado esperado:
# Carpetas creadas sin error
# Interpretación:
# Repo listo para trabajar ordenado


OK -> data/raw, models, reports


In [2]:
# BLOQUE 02
# DESCARGA DEL DATASET (url_spam.csv)
# - Descarga desde el link oficial
# - Guarda en data/raw para uso local

import os
import urllib.request

url = "https://breathecode.herokuapp.com/asset/internal-link?id=435&path=url_spam.csv"
out_path = "data/raw/url_spam.csv"

if not os.path.exists(out_path):
    urllib.request.urlretrieve(url, out_path)

print("OK ->", out_path, "| exists:", os.path.exists(out_path))
# Resultado esperado:
# Archivo data/raw/url_spam.csv existe
# Interpretación:
# Dataset listo para cargar en pandas


OK -> data/raw/url_spam.csv | exists: True


In [3]:
# BLOQUE 03
# CARGA + INSPECCIÓN RÁPIDA
# - Lee CSV con pandas
# - Elimina duplicados
# - Detecta columnas X (url) y y (label) de forma robusta

import pandas as pd

df = pd.read_csv("data/raw/url_spam.csv")
print("Shape:", df.shape)
print("Columns:", df.columns.tolist())
display(df.head(5))

df = df.drop_duplicates().reset_index(drop=True)
print("After dedup:", df.shape)

x_col = "url" if "url" in df.columns else df.columns[0]

possible_y = [c for c in df.columns if c.lower() in {"is_spam", "spam", "label", "target", "category", "class"}]
if not possible_y:
    possible_y = [c for c in df.columns if c != x_col]
y_col = possible_y[0]

print("X column:", x_col)
print("y column:", y_col)
print("y distribution:\n", df[y_col].value_counts(dropna=False).head(10))
# Resultado esperado:
# Columnas detectadas + distribución de clases
# Interpretación:
# Confirmas feature (URL) y target (spam/no spam)


Shape: (2999, 2)
Columns: ['url', 'is_spam']


Unnamed: 0,url,is_spam
0,https://briefingday.us8.list-manage.com/unsubs...,True
1,https://www.hvper.com/,True
2,https://briefingday.com/m/v4n3i4f3,True
3,https://briefingday.com/n/20200618/m#commentform,False
4,https://briefingday.com/fan,True


After dedup: (2369, 2)
X column: url
y column: is_spam
y distribution:
 is_spam
False    2125
True      244
Name: count, dtype: int64


In [4]:
# BLOQUE 04
# NORMALIZACIÓN DEL TARGET A 0/1
# - Acepta labels tipo True/False, spam/ham, 0/1
# - Evita errores por formatos mixtos

import pandas as pd

def normalize_y(y):
    # comments: Convert labels to binary 0/1 robustly
    s = pd.Series(y)

    if s.dtype == bool:
        return s.astype(int).values

    if s.dtype == object:
        s2 = s.astype(str).str.lower().str.strip()
        return s2.apply(lambda v: 1 if v in {"1", "true", "spam", "yes"} else 0).astype(int).values

    return pd.to_numeric(s, errors="coerce").fillna(0).astype(int).clip(0, 1).values

y = normalize_y(df[y_col].values)
print("Unique y:", sorted(set(y)))
print("Spam ratio:", round(y.mean(), 4))
# Resultado esperado:
# Unique y: [0, 1]
# Interpretación:
# Target listo para clasificación binaria


Unique y: [np.int64(0), np.int64(1)]
Spam ratio: 0.103


In [5]:
# BLOQUE 05
# PREPROCESADO NLP PARA URLs (TOKENIZACIÓN)
# - Parsea URL en partes (scheme, host, path, query)
# - Tokeniza por separadores/puntuación
# - Quita stopwords, números puros, tokens cortos
# - Lematiza para normalizar tokens

import re
from urllib.parse import urlsplit, unquote

import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

nltk.download("stopwords", quiet=True)
nltk.download("wordnet", quiet=True)

STOP_WORDS = set(stopwords.words("english"))
LEMMATIZER = WordNetLemmatizer()

def url_to_tokens(url: str) -> list:
    # comments: Robust URL tokenization for NLP models
    url = "" if pd.isna(url) else str(url)
    url = unquote(url).strip().lower()

    parts = urlsplit(url)
    raw = " ".join([parts.scheme, parts.netloc, parts.path, parts.query, parts.fragment])

    tokens = re.split(r"[^a-z0-9]+", raw)
    tokens = [t for t in tokens if t and len(t) >= 3]

    cleaned = []
    for t in tokens:
        if t in STOP_WORDS:
            continue
        if t.isdigit():
            continue
        lemma = LEMMATIZER.lemmatize(t)
        cleaned.append(lemma)

    return cleaned

# Sanity check rápido
sample_urls = df[x_col].astype(str).head(5).tolist()
for u in sample_urls:
    print(u, "->", url_to_tokens(u)[:12])

# Resultado esperado:
# Listas de tokens para URLs ejemplo
# Interpretación:
# Convertiste URLs en señales textuales entrenables


https://briefingday.us8.list-manage.com/unsubscribe -> ['http', 'briefingday', 'us8', 'list', 'manage', 'com', 'unsubscribe']
https://www.hvper.com/ -> ['http', 'www', 'hvper', 'com']
https://briefingday.com/m/v4n3i4f3 -> ['http', 'briefingday', 'com', 'v4n3i4f3']
https://briefingday.com/n/20200618/m#commentform -> ['http', 'briefingday', 'com', 'commentform']
https://briefingday.com/fan -> ['http', 'briefingday', 'com', 'fan']


In [6]:
# BLOQUE 06
# TRAIN/TEST SPLIT ESTRATIFICADO
# - Separa train/test para medir generalización
# - Mantiene proporción spam/no-spam
# - random_state fijo para reproducibilidad

from sklearn.model_selection import train_test_split

X_raw = df[x_col].astype(str).values

X_train, X_test, y_train, y_test = train_test_split(
    X_raw, y, test_size=0.2, random_state=42, stratify=y
)

print("Train:", len(X_train), "Test:", len(X_test))
print("Train spam ratio:", round(y_train.mean(), 4))
print("Test spam ratio:", round(y_test.mean(), 4))

# Resultado esperado:
# Ratios similares en train/test
# Interpretación:
# Evaluación más justa y replicable


Train: 1895 Test: 474
Train spam ratio: 0.1029
Test spam ratio: 0.1034


In [7]:
# BLOQUE 07
# PIPELINE BASELINE: TF-IDF + SVM LINEAL
# - TF-IDF convierte texto a números
# - SVM lineal suele ser baseline fuerte en NLP
# - Pipeline evita desalineación entre vectorizer y modelo

from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC

baseline = Pipeline(steps=[
    ("tfidf", TfidfVectorizer(
        tokenizer=url_to_tokens,
        preprocessor=None,
        lowercase=False,
        token_pattern=None,  # comments: required when using custom tokenizer
        max_features=8000,
        min_df=2,
        max_df=0.9,
        ngram_range=(1, 2)
    )),
    ("svm", SVC(kernel="linear", C=1.0, random_state=42))
])

baseline.fit(X_train, y_train)
print("OK -> baseline trained")

# Resultado esperado:
# Mensaje de entrenamiento OK
# Interpretación:
# Primer detector funcional listo para evaluar


OK -> baseline trained


In [8]:
# BLOQUE 08
# EVALUACIÓN DEL BASELINE
# - Accuracy + Precision/Recall/F1
# - Confusion matrix para ver FP/FN
# - En spam, FN suele ser lo más costoso

from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

y_pred = baseline.predict(X_test)

acc = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test, y_pred)

print("Baseline Accuracy:", round(acc, 4))
print("Baseline Confusion Matrix:\n", cm)
print("\nBaseline Report:\n", classification_report(y_test, y_pred, digits=4))

# Resultado esperado:
# Métricas impresas + matriz
# Interpretación:
# Ves si el modelo deja pasar spam (FN) o bloquea buenos (FP)


Baseline Accuracy: 0.9304
Baseline Confusion Matrix:
 [[421   4]
 [ 29  20]]

Baseline Report:
               precision    recall  f1-score   support

           0     0.9356    0.9906    0.9623       425
           1     0.8333    0.4082    0.5479        49

    accuracy                         0.9304       474
   macro avg     0.8844    0.6994    0.7551       474
weighted avg     0.9250    0.9304    0.9195       474



In [9]:
# BLOQUE 09
# OPTIMIZACIÓN CON GRID SEARCH (F1)
# - Busca mejores hiperparámetros sin “adivinar”
# - CV estratificado para robustez
# - scoring F1 para balance precision/recall

from sklearn.model_selection import GridSearchCV, StratifiedKFold

param_grid = {
    "tfidf__max_features": [6000, 8000, 12000],
    "tfidf__ngram_range": [(1, 1), (1, 2)],
    "svm__kernel": ["linear", "rbf"],
    "svm__C": [0.5, 1, 2, 5],
    "svm__gamma": ["scale", 0.5, 0.1]  # comments: used by rbf; ignored by linear
}

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

grid = GridSearchCV(
    estimator=baseline,
    param_grid=param_grid,
    scoring="f1",
    cv=cv,
    n_jobs=-1,
    verbose=1
)

grid.fit(X_train, y_train)

print("Best params:", grid.best_params_)
print("Best CV F1:", round(grid.best_score_, 4))

# Resultado esperado:
# Best params + best CV F1
# Interpretación:
# Ajuste sistemático para mejor performance


Fitting 5 folds for each of 144 candidates, totalling 720 fits
Best params: {'svm__C': 5, 'svm__gamma': 0.5, 'svm__kernel': 'rbf', 'tfidf__max_features': 6000, 'tfidf__ngram_range': (1, 1)}
Best CV F1: 0.6408


In [10]:
# BLOQUE 10
# EVALUACIÓN DEL MEJOR MODELO EN TEST
# - Evalúa el best_estimator_ en test
# - Compara contra baseline con métricas claras
# - Confirma mejora real (no solo CV)

best_model = grid.best_estimator_

y_pred_opt = best_model.predict(X_test)

acc_opt = accuracy_score(y_test, y_pred_opt)
cm_opt = confusion_matrix(y_test, y_pred_opt)

print("Optimized Accuracy:", round(acc_opt, 4))
print("Optimized Confusion Matrix:\n", cm_opt)
print("\nOptimized Report:\n", classification_report(y_test, y_pred_opt, digits=4))

# Resultado esperado:
# Métricas optimizadas impresas
# Interpretación:
# Modelo final validado en datos no vistos


Optimized Accuracy: 0.9409
Optimized Confusion Matrix:
 [[418   7]
 [ 21  28]]

Optimized Report:
               precision    recall  f1-score   support

           0     0.9522    0.9835    0.9676       425
           1     0.8000    0.5714    0.6667        49

    accuracy                         0.9409       474
   macro avg     0.8761    0.7775    0.8171       474
weighted avg     0.9364    0.9409    0.9365       474



In [11]:
# BLOQUE 11
# GUARDADO DEL MODELO (PIPELINE COMPLETO)
# - Guarda TF-IDF + SVM juntos (evita bugs)
# - Nombre descriptivo con seed
# - Listo para reutilizar o desplegar

import joblib
import os

os.makedirs("models", exist_ok=True)

model_path = "models/url_spam_svm_tfidf_42.joblib"
joblib.dump(best_model, model_path)

print("OK -> saved:", model_path)

# Resultado esperado:
# Archivo .joblib en models/
# Interpretación:
# Modelo portable y reutilizable


OK -> saved: models/url_spam_svm_tfidf_42.joblib


In [12]:
# BLOQUE 12
# SMOKE TEST DE INFERENCIA (CARGA + PREDICCIÓN)
# - Carga el modelo guardado
# - Predice URLs nuevas
# - Valida que funciona end-to-end

loaded = joblib.load("models/url_spam_svm_tfidf_42.joblib")

demo_urls = [
    "https://secure-login.example.com/account/verify?ref=free",
    "https://www.wikipedia.org/wiki/Natural_language_processing",
    "http://cheap-prize-now.biz/win/iphone?click=1"
]

preds = loaded.predict(demo_urls).tolist()
print(list(zip(demo_urls, preds)))

# Resultado esperado:
# Lista (url, 0/1) sin errores
# Interpretación:
# Pipeline listo para uso real


[('https://secure-login.example.com/account/verify?ref=free', 1), ('https://www.wikipedia.org/wiki/Natural_language_processing', 0), ('http://cheap-prize-now.biz/win/iphone?click=1', 0)]
